《数据竞赛白皮书·下篇·办好一场竞赛的实操手册》报告速读

数糖老夏 2023-05-29 11:37:00

在大数据系统软件国家工程实验室的指导下,和鲸科技携旗下中国领先的第三方数据竞赛平台“和鲸社区”,联合AWS,共同发布了《数据竞赛白皮书》,分为《数据竞赛白皮书·上篇·1000场竞赛的深度分析》和《数据竞赛白皮书·下篇·办好一场竞赛的实操手册》上下两篇。

《数据竞赛白皮书·下篇·办好一场竞赛的实操手册》

《数据竞赛白皮书·上篇》集中展现了不同的组织机构,如何以数据竞赛为支点,探索数字化创新之路。作为数据科学研发的演兵场,如何合理地制定赛题、管控赛事流程与机制、实现算法成果的应用——是发挥数据竞赛价值的关键点。基于上篇内容,《数据竞赛白皮书·下篇》致力于阐释数据竞赛价值落地的复杂要素,分享办好数据竞赛的方法。

1、主办方的高预期与参赛者的严要求,共同决定了数据竞赛的复杂性

数据竞赛牵涉到应用场景、数据、算力、算法和人才等方方面面的复杂要素,包含了数据科学研发过程中的主要环节,从赛前筹备到赛中运营,再到赛后跟进,从应用场景挖掘到配套数据处理,从计算环境搭建到算法应用,从参赛选手管理到成果测评,每个环节都需要专业能力和精细运营的支撑。

不同的赛事主办方举办数据竞赛的初衷各有侧重,其共同的诉求是赛事进程平稳顺畅、舆论评价正面积极、参赛选手能够准确理解赛题、参赛选手技术能力出色、赛事成果具有优越表现。这需要不同环节的专业服务能力紧密配合,促成赛事实现最好的效果。

不同程度参赛经验和成绩表现的参赛者,对于数据竞赛从赛题、评审到工具、运营均拥有复杂而严苛的要求——竞赛内容富有实际意义、竞赛服务专业周到。选手需求的复杂性和多元性,对于赛事的主办方和赛事平台,也提出了严格而专业的要求。

2、数据竞赛的全流程把控,对组织运营者提出了持续考验

需求分析和赛题设计——首要任务是能够充分理解、拆解、定义竞赛主办方的真实诉求,使其可被数据竞赛承载和实现。其中,开放性方案题在报名热情上只稍逊于算法题,但最终成果的提交数量却远低于算法题。

数据管理——有三个重点:数据质量、数据集切分、数据安全

数据质量问题可能发生在数据收集、治理、加工和采样的各个阶段,数据质量低下容易导致选手分散过多精力进行数据的二次处理,限制了算法所能达到效果的天花板。质量低下的数据难以反映实际生产生活中的真实情况,最终影响模型成果在业务场景的表现;

数据集切分是模型构建的重要前置工作。如果在切分数据集时未能控制好数据分布,也会影响模型实际表现的上限,容易出现模型在某个数据集上过拟合的情况,进而影响其泛化性能;

出于对数据所涉敏感信息或商业机密的保护需要,数据安全是赛事主办方重点关心的问题,数据脱敏是这一问题的常见手段。如果数据的脱敏处理欠缺科学性,一方面可能会反而脱敏失效,另一方面也会导致参赛者在特征工程阶段被误导。

成果管理——影响数据科学项目项目效果的“最后一公里”

成果版本管理混乱、成果不可复现都是常见的赛事项目管理问题。混乱的成果版本管理会导致团队协作效率低下、数据科学项目进度缓慢,并且最终在验证算法效果时难以做到对应版本的跟进和回溯。成果的不可复现,会导致算法成果在实现应用时达不到预期效果,投入产出比模糊。

计算资源管理——搭建统一的云端竞赛环境成为必然趋势

如果计算资源供应不足,则会出现模型运行时间过长、内存溢出、资源互相占用等现象,导致参赛者难以在既定时间内完成对模型的迭代优化。因此,对竞赛全程的计算资源消耗量做精确的预估,充分平衡成本限制、赛题难度和赛事规模等多方因素,是赛事筹备的重要任务。

3、保障赛事相关方体验需要面面俱到

赛程运营管理环节

一场数据竞赛牵涉赛事主办方、赛事运营者、参赛选手、媒体等方方面面的利益相关集体,而赛程运营管理则以串联者的角色整合了前期筹备、赛事运营、赛后结项等各类赛事相关要素,工作范围涉及资源统筹调配、赛事流程推进、选手社区运维、阶段进展汇报、风险防范控制、成果管理移交等方方面面。如果缺乏成熟专业的赛程运营管理,轻则可能延滞数据竞赛进度的顺利推进,重则可能导致前期投入无法产出效益

工具支撑

数据竞赛的组织具有较高的技术难度,从最初要求顺畅地跑通竞赛全流程,到能够进行云端协同开发,再到保障日益敏感的数据安全,越来越多的问题有赖于产品工具的功能保障。

竞赛工具1.0时代——数据竞赛系统

竞赛工具2.0时代——数据竞赛系统+数据科学协同平台+云计算

竞赛工具3.0时代——数据竞赛系统+数据科学协同平台+云计算+数据安全

通过数据、云计算、人工智能技术、数据科学人才的连接,数据竞赛在帮助赛事主办方探索创新方向、树立技术驱动的品牌形象同时,也在为其在内部积累数据、治理数据、应用数据提供了全流程的借鉴。

4、优质的数据竞赛应同时满足竞赛体验的顺畅性和竞赛成果的有效性

竞赛体验的顺畅性——以系统化、专业化的运营手段严格把控赛事质量,以易用的工具、合理的计算资源支撑赛事功能,保障各个环节的平稳推进和过渡,激励参赛选手在公平、公正的竞赛环境下充分发挥能动性和专业实力,高效创造出性能优越的竞赛成果。

竞赛成果的有效性——在充分理解赛事主办方业务特征与办赛诉求的基础上,通过赛题最大化呈现技术在具体应用场景下的价值,将数据竞赛打造成为高度整合“数据+算力+算法+应用场景+人才”的标杆,为数字化创新提供借鉴与思路。

5、数据科学项目管理,支撑赛事成果有效性

贴合实际场景的需求分析和赛题设计

赛题设计需要考虑如下原则:

赛题的未来应用价值在紧凑的竞赛周期内能够基于现行技术实现;赛题与现有数据条件充分契合;赛题具有充分的可解性,又能够保有一定的难度和挑战;赛题以清晰、明确的表述方式向参赛选手予以呈现;赛题配套的测评方法需要综合考量学术指标、生产指标与竞赛效果;引入行业专家共同参与赛题的打磨并对赛题质量提出意见。

审慎的数据筹备与质量管控

数据甄选和评估——数据甄选不仅要做到能够从数据源头上支撑赛题的可解性,配合赛事主办方积累数据采集和管理方面的能力。竞赛运营平台需要积累国内外的开放数据资源,形成丰富的数据案例库,以此为基准帮助赛事主办方进行数据采集和管理

数据集切分——为了避免随机切分带来的潜在问题,对抗验证不失为行之有效的办法:

首先,采用一系列分析手段来量化判断在不同的切分方式下,训练集和测试集之间的相似度变化;

在此基础上,结合实际赛题的业务价值、难度定位、效果预估等多方面因素找到最合适的相似度指标;

最后,依据该相似度指标切分数据集,邀请专业人士进行测试,确保切分结果能够保证比赛质量的同时考察模型的泛化性能。

科学有效的竞赛成果评价机制

评审机制包括评审类型、评审次数和评审反馈。

客观评审是指通过设置考察指标,对参赛选手开发的算法模型的推理效果进行评估。合理的测评算法需要从有效性、稳定性和安全性三个维度出发予以保障。

主观评审需要与客观测评算法有一定的区分度,从而能对参赛选手的表现做出更综合的评价,主要是从竞赛成果的有效性、创新性和性能三个维度进行考虑。

平衡成本和效率的计算资源管理与配给

考虑到复杂的竞赛环境和赛题内容要求,在实际赛程中,计算资源也需要实现对AWS、阿里云、腾讯云等国内外各大主流云厂商进行灵活的跨云调度,以防止单一云厂商的算力资源用量无法满足同时段内多场竞赛的算力资源使用需求。在竞赛运行时,会对相应的计算资源进行弹性调度,当用户使用结束后及时自动释放运算资源,从而降低计算资源的浪费率。

6、数据竞赛运营管理,保障双边赛事体验

提供云端竞赛环境突破本地配置限制

在一定算力消耗的条件下鼓励敏捷的算法创新,能够带来更大的经济效益,更具可行性和持续性。在数据竞赛中提供统一的计算环境使得开发代码的分享、协作更加便捷,开发成果的复现效果也能够得到平等地呈现,促进赛事成果的高效产出与有效落地。

参赛选手享有流畅的体验闭环

报名组队(获取竞赛信息、报名组队)

数据获取(在平台获取经数据科学家完成切分、处理完毕且对赛题可解的赛事专业数据)

赛题解决(通过数据竞赛平台工具,团队成员进行密切的配合和高效协作)

成果提交(成果文件提交到赛事系统,测品算法打分并反馈说明)

促进人才沉淀的社区运营

数据竞赛具有天然的社区效应,越来越多数据科学人才选择参赛以实践理论技能,并在过程中进行持续的协作、交流和讨论,形成了具有专业属性的社区雏形。

数据科学社区集聚的人才来自不同行业不同职能,能够及时响应复杂多元的竞赛需求,充分输出“数据+”的洞察,为数据竞赛的成功举办提供了复合能力的全方位支持。活跃的互动交流也在社区上不断沉淀着技术先进、应用成熟的真实案例,突破固有认知的创新源源不断地发生,进而为数据竞赛基础上的数字化创新提供了底层支持。

注:本文主要摘自大数据系统软件国家工程实验室、和鲸科技与AWS联合发布的《数据竞赛白皮书·下篇·办好一场竞赛的实操手册》,更多数据图表内容可至官方渠道下载完整版阅读。文章解读有主观筛选,不代表原机构、原报告的立场,如您认为本文侵犯了知识产权,可联系作者进行删除。

0 阅读:1

数糖老夏

简介:数糖科技CEO,15年市场营销和品牌打造一线经验