《数据竞赛白皮书·上篇·1000场竞赛的深度分析》报告速读

数糖老夏 2023-05-27 15:38:53

在大数据系统软件国家工程实验室的指导下,和鲸科技携旗下中国领先的第三方数据竞赛平台“和鲸社区”,联合AWS,共同发布了《数据竞赛白皮书》,分为《数据竞赛白皮书·上篇·1000场竞赛的深度分析》和《数据竞赛白皮书·下篇·办好一场竞赛的实操手册》上下两篇,由于报告篇幅较长,数据图表较多,在这里先梳理下上篇的核心看点,希望对大家有所帮助。

《数据竞赛白皮书·上篇·1000场竞赛的深度分析》

1、数据竞赛赛题数量及参赛人数增势强劲

利用数据进行产业赋能的创新探索需求不断增加,越来越多的组织机构以拥抱人工智能的开放心态积极探索数字化转型的更多可能,进入2017、2018年,在越来越多企业投入数据竞赛的同时,由高校、科研机构与政府单位主导的数据竞赛数量也保持着较强的涨幅、从科研探索,到商业场景应用,再到社会治理,数据竞赛赛题内容可谓百花齐放。

而参赛人数的指数级增长也释放出两方面的信号:其一,不仅限于计算机和数学背景,越来越多的不同背景的人才开始接触数据科学;其二,伴随着技术的革新,产业对于数据科学应用价值的认知和兴趣不断强化。

2、奖金投入意愿攀升,参与规模稳增,交通出行成为奖金支付能力最高、数据科学人才热度最高的行业

赛题场景的行业分布与奖金、参赛规模主要呈现如下趋势:

交通出行、工业制造、医疗健康是目前数据竞赛中奖金最丰厚、规模最宏大的三个领域,可见其对于数字化创新价值的重视和期待。

电子商务、社会公共服务、文娱传媒等赛题场景因与大众个人生活息息相关,故而也往往具有较大的参赛规模。

安防、能源、气象等赛题场景因具有一定的知识门槛,因此存在奖金丰厚但参赛者寥寥的现象。

3、赛题应用场景不断扩散,标杆行业优势初显

金融行业是数字化创新的主力——自2016年Fintech(金融科技)的概念面世以来,金融行业在技术创新方面的投入不断增强,以数据竞赛为主要手段的开放式创新更成为了金融行业的重要战略选择。量化投资和风险评估是最为常见的赛题场景,如根据海量股票交易数据生成量化投产策略,并在模拟盘上进行三个月的策略验证;同时,通过声纹、人脸等生物特征和个人信息的验证来加强金融风控力度也是较为常见的赛题应用场景。

电信数据是跨界应用的典范——绝大多数赛事主办方的赛题均集中在其所在行业领域的产业链上,以电信行业为代表的赛事主办方设立了丰富的跨界赛题,如利用电信用户地理位置信息预测其前往某地旅游的概率,或利用电信用户通信侧消费信息和手机使用行为信息预测其更换手机的概率。这与其电信业务存量市场已渐趋饱和的行业特点相关,也传递出了趋势性的信号:通过数据竞赛探索既有数据在跨界领域的应用,不仅能够建立起“算力+数据+算法+场景”的标杆案例,而且能够探索多产业间数据协同的增量价值。

文娱传媒类场景是面向个人用户应用AI技术的直接端口——行为预测、营销内容创作、舆情分析成为了该领域最为常见的赛题场景,因赛题内容与个人消费者具有较强的相关度,该领域的竞赛往往能够引起广泛关注和积极参与,成为了面向个人用户应用数据智能的直接端口。

另外,工业制造业也在政策与需求的驱动下积极组织竞赛,技术发展与消费升级也推进了新零售领域数据竞赛的爆发。

4、覆盖主流AI技术,计算机视觉热度延续,结构化数据挖掘方面的赛题分布最为广泛

数据竞赛赛题的技术类型主要包括结构化数据挖掘、计算机视觉、自然语言处理、语音技术四大类别。结构化数据挖掘方面的赛题分布最为广泛。对于赛事主办方而言,在场景应用尚未开发成熟之前,通过结构化数据挖掘类赛题加强对如何进行数据治理、如何打破数据价值应用壁垒、如何唤醒沉睡数据的理解是其重要意义所在。而计算机视觉在未来较长一段时间内都将持续成为热门的应用焦点。

5、数据竞赛模式始于KDD Cup,国际顶会先锋探路

全球数据竞赛市场已经历了20余年的探索,其发展起点可追溯至1997年首次问世的KDD Cup,这也是数据科学领域迄今为止最重要的国际赛事之一。KDD Cup的历年赛题虽然日益复杂,高度契合各类组织机构的实际需求,不断涌现出全新的应用场景,但始终带有强烈的工业应用色彩。

继KDD Cup之后,ICCV、NeurlPS、ISBI、Euro CSS、ECMLPKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、CVPR(ActivityNet)、IWCS、ECCV等国际顶尖学术会议也陆续牵头举办数据竞赛。国际顶会数据竞赛往往会积极兼顾市场应用的需求,通过与企业、政府机构合作,聚集当下技术与数据应用中的难点寻求解决思路,不断缩短科研成果与落地应用之间的距离,赛题内容广泛覆盖医疗、军事、互联网、交通出行、快消零售、生态及文化保护等众多场景。

中国企业、高校及科研机构和个人参赛者在国际顶会数据竞赛的获奖次数呈现逐年上升的趋势,亦反应了中国在数据科学领域的实力和影响力不断加强。

6、平台化模式开启,Kaggle加速资源汇聚

数据竞赛发展的里程碑绕不开Kaggle,为数据竞赛的平台化发展奠定了模式的基础。在发展初期,Kaggle聚集了一大批数据科学人才,形成了讨论氛围浓厚的数据集、代码与技术分享社区,并在此基础上开始逐渐发展数据竞赛服务。Kaggle目前包含竞赛、数据集、开发工具三个子平台,配套论坛和招聘服务两大模块,逐渐发展成为连接数据科学人才和数据科学应用场景双方共同致力于数据科学创新探索的工具性平台

在Kaggle的影响下,国外市场开始出现一批深耕不同细分领域的竞赛平台,如重点关注生命科学领域的InnoCentive和主攻公共服务领域的DrivenData,此外,还有诸如CodaLab等平台支持数据科学家自主发起赛事。

尽管中国市场起步较晚,但越来越多的企业、高校、科研机构和政务部门开始意识到数据竞赛是进行品牌宣传、人才选拔、算法创新的一种高效形式,因此投身数据竞赛的姿态愈发积极。在此背景下,中国市场也顺势崛起了一批数据竞赛平台,凭借在资源整合、场景挖掘、工具开发、成果封装等方面的专业服务能力和经验推动着中国数据竞赛的专业化发展,如:阿里天池(阿里云旗下)、Kesci科赛(和鲸科技旗下)等。

7、资本看重AI落地价值,数据竞赛成为技术在各场景下快速验证的最有效方式

资本对人工智能青睐的背后并非狂热,自2016年以来,资本市场对人工智能的发展信心中更多了一份审慎,投资增势渐缓。由此可见,资本始终将先进技术的实际落地应用价值和对业务的赋能效果作为核心关注点,任何人工智能细分赛道,最终布局都必将落实到在各行各业场景中的实际应用,挖掘出能够验证技术赋能价值的落地场景才能在资本市场获得持续的信任

AI技术是热潮,但其实际应用才是产业转型升级的推动力,落地场景已成为大势所趋。数据竞赛是敏捷的、经济的创新探索实验,在发现场景的同时,亦通过竞争机制对技术在各场景下的应用实效进行了快速验证。

注:本文主要摘自大数据系统软件国家工程实验室、和鲸科技与AWS联合发布的《数据竞赛白皮书·上篇·1000场竞赛的深度分析》,更多数据图表内容可至官方渠道下载完整版阅读。文章解读有主观筛选,不代表原机构、原报告的立场,如您认为本文侵犯了知识产权,可联系作者进行删除。

0 阅读:4

数糖老夏

简介:数糖科技CEO,15年市场营销和品牌打造一线经验