AI人才,百度制造

刺猬公社 2021-12-30 10:30:18

这个互联网大厂,想为中国培养500万AI人才。

文 | 园长

编 | 石灿

北京东南角的亦庄经济开发区的道路上,有不少头顶类似摄像头装置的轿车往来穿梭。这景象看起来平平无奇,但这些车都有一个共同特点:不用司机,自动驾驶。

重庆的一家“鱼菜共生”工厂里,养大口黑鲈鱼的废水浇灌着码放15层的韭菜、茼蒿,蔬菜栽培、病虫害巡检、鱼生命体征监测、鱼饵投喂全部自动完成,人只需定期检查维护设备。

云南丽江,在“城市大脑”的指挥下,数百个摄像头自动识别、上报城市内垃圾暴露、机动车违停、街面违规经营等行为,大大提高城市治理的效率,降低了管理成本。

从智慧农业到先进制造,再到城市管理和智能交通,无人驾驶、无人工厂和智慧城市这些未来感十足的技术背后,都离不开一个“核心科技”——AI,也就是人工智能。虽然距离科幻作品中机器人满街跑的时代仍有不短的距离,但最近几年,AI正在各个场景实实在在地进入人们的生活。

在AI落地的过程中,“人”,也就是训练、使用、操作AI的那些人,仍在起着至关重要的作用。而人社部在2021年7月发布的一份报告,却揭示了一个令人担忧的事实:目前,我国人工智能人才的供需比只有1:10,如果再不加强培养,2025年的人才缺口将达到1000万。

AI人才培养的数量和质量,成了制约AI赋能当代生产、生活的关键因素。

在国内,一批AI领域的探索者已经注意到了这个问题,AI人才的培养,开始渐渐走上正规。

2021年12月27-29日,百度举办了以“创造者精神”为主题的Create大会,其中,专门有一场论坛是留给AI人才培养的。在这场论坛中,“硅谷钢铁侠”马斯克的母亲梅耶·马斯克对话百度女科学家,计算机C语言教学“开山鼻祖”谭浩强、前国家乒乓球领队姚振绪以及来自大学校园的普通开发者都带来了自己的分享。

本来,这些来自不同领域的人们可能不会产生联系,但因为百度,他们走到了一起,共同探讨AI人才发展的现实、路径和未来。

从零开始的AI开发,有多难?

在百度Create大会AI人才培养论坛上,来自孟加拉国的河南理工大学大四留学生尼希德展示了他的成果:

通过AI识别鸡粪。

这项“成就”听起来就充满了乡土的味道。2018年,尼希德来到中国读大学。在老师的指导下,他走上了学习人工智能的道路,学习机器学习和推荐系统等课程。

学习的过程中,尼希德意识到,“要真正理解人工智能的意义,我们不仅要学习理论,还要将理论应用到实际的生产生活中。”他开始大量参加竞赛,编程比赛、机器人比赛、创意课题展示......也在这些比赛中获得了一些奖项。

后来,尼希德决定参加C4-AI大赛(中国高校计算机大赛-人工智能创意赛)。这是一个颇为权威的全国性大赛,由全国高等学校计算机教育研究会主办,浙江大学、百度公司联合承办,竞争相当激烈,很能体现选手的个人水平。

正当尼希德为做什么而苦恼的时候,他的指导老师王春阳建议,“你为什么不试试用人工智能做一些你家乡真正需要的东西?”

孟加拉国是个人口1.6亿的南亚农业国,但技术相对落后,每年约有30%的家禽因为疾病爆发而死亡,给当地居民的生产生活带来巨大损失。

如果可以用AI自动识别鸡粪便的形状和颜色,也就意味着能够自动判断鸡的健康状况,而随着技术的发展,鸭、鹅等禽类的健康状况也可以进行识别。这将有效地防止疾病在家禽中传播,也可以将一部分劳动力从繁重的饲养工作中解放出来。

尼希德认定,这是一个“家乡真正需要的东西”。

他和两位同样来自孟加拉国的同学开始收集数据,也就是鸡粪的照片。这正是训练AI的原料。为了让数据更准确,要给每个数据打上两三个标签。换算成时间,就是要“凝视”每张鸡粪照片两分钟,而照片的总量接近1000张。将近一个半月,他们都在做这件事。

完成了数据的收集和标注,就该百度“EasyDL”(百度大脑推出的零门槛AI开发平台)上场了,借助它,开发者可以完成对鸡粪的颜色、形状和大小的分类,从而达到识别鸡的健康状况的目的。

“EasyDL降低了人工智能学习的门槛。在EasyDL上不需要很难的编码,也不需要去构建算法架构。所以任何人都能通过这个平台来实现自己的创意想法。”

在AI人才培养论坛上,尼希德用自己的亲身经历如是说。对AI开发者如此友好的平台,在国内基本找不到竞品,在国际上也只有谷歌一级的“大厂”才会提供类似服务。

尼希德在百度AI开发者大会人才论坛上演讲

后来,这个AI鸡粪识别项目,获得了C4-AI大赛的二等奖。“回想我祖国,我认为人工智能可以用于改善各行各业和日常生活,比如医疗、交通、农业、电子商务、课堂管理等。”对于尼希德和他的祖国来说,AI的意义都相当重大。

在尼希德的故事里,有一个人扮演了至关重要的角色,那就是他的中国大学老师王春阳。尼希德刚来到中国时,不懂中文,学习基础也不如身边的中国学生,AI上知识更是零基础。

幸运的是,他的这位指导老师刚好参加过百度的深度学习培训。老师从百度那里取来了AI的火种,再把这火种传递给了尼希德。在老师的影响下,他有机会接触并掌握了飞桨的使用;更幸运的是,百度飞桨EasyDL足够“零门槛”,让这个一开始连EasyDL界面都看不懂的外国人,做出了能在国内大赛获奖的项目,实现了AI技能的从零到一。

尼希德的故事还在续写。河南理工大学的老师自发组织了一批孟加拉国学生,撰写孟加拉语的EasyDL使用手册。他想让更多的孟加拉国学生,进入百度AI的人才培养链条中,培养更多的尼希德。

百度的AI能力,也在帮助越来越多的开发者实现自己的“从零到一”。在百度飞桨开发者社区我们看到,开发者于航在PaddleLite主干网络加入了超过10万张口罩人脸数据进行训练,将识别是否佩戴口罩的模型准确度提升到了96.5%;开发者夏凡借助飞桨平台开发了“鹦鹉识别”程序,能够自动识别鹦鹉的保护级别和物种分类信息。

这些开发者的故事告诉我们,因为百度的AI能力,开发者AI学习的从零到一变得不再困难重重。

给开发者加速,能多快?

“这可以说是开挂了。”

在AI人才培养论坛上,大学生开发者高鸿志这样形容百度飞桨平台对于AI开发上的能力。

高鸿志就读于东北大学自动化专业,和尼希德一样也在读大四。他是甘肃省古浪县人,家在腾格里沙漠边缘。小时候,黄土漫天的沙尘暴给他留下了深刻印象。想要根除沙尘暴,治理荒漠化,必须多种抗风沙的植物。但在沙漠中种树谈何容易,不仅需要在松散的沙地上费力挖坑,还要人力搬运树苗和水。

“我们自动化学生的使命,不就是用机器去代替人工,完成那些艰苦的重复性劳动吗?”

从小就对沙尘危害有着切肤之痛的高鸿志,迫切希望用智能机器更高效地种树。他的目标不仅仅是一个会挖坑填坑、会安插树苗的简单机器人,而是包括沙漠栽树机器人、护养机器人集群以及控制它们的物联网,共同组成“栽、护、管”一体化的智能解决方案,真正实现用机器代替人工。

作为一名自动化专业的学生,高鸿志和他的伙伴们的长处是做硬件,组装底盘、车轮、履带、箱体,再把电路板一块块焊接到主体上,这都不是问题。

真正的考验在于,如何给这台栽树机器人“赋予灵魂”,让他真正智能起来?比如,机器人的护养模块要精准定位到每一颗树苗,对视觉有着很高的要求。如何搭建目标检测模型,并进行有针对性的训练?对于不太懂AI的高鸿志和他的伙伴们来说,这成了一个令人困扰的难题。

无意间,高鸿志在飞桨公众号上看到开源工具“PaddleDetection”,它是一个相当于0代码的目标检测开发工具,只需要运行相应的python文件,就可以实现模型训练、预测等功能。

这让栽树机器人的研发进程,跨过了深度学习模型的搭建、训练和预测等一系列费时费力的步骤,开发者只需将自己的数据集处理成为规定格式,就可以轻松使用集成好的模型配置文件,一键运行脚本训练模型。

更令人惊喜的是,原本需要几万张数据才能达到的效果,现在通过套件内部集成的超大规模预训练模型做迁移学习后,预计只用1000张左右的数据,就能达到95%以上的准确率了。这让开发者可以集中精力寻找数据集。

飞桨提供给开发者的还不止工具上的便利,在数据收集上,飞桨开发者社区同样助力良多。因为疫情,高鸿志他们没法去沙漠实地拍摄梭梭苗的数据集。抱着试一试的心态,他在飞桨开发者社区求助,希望能找到住在沙漠附近的开发者帮忙采集数据。通过飞桨的工作人员,高鸿志果然联系到一位住在甘肃省民勤县的开发者,一次性帮搜集了一千多张沙漠植株的数据集,解决了这个大问题。

之后,高鸿志和他的同伴用百度大脑的开源工具Easydata做智能标注,2个小时就标注了1000多张数据;用PaddleDetection做模型训练,2天时间,识别率就达到95%。

测试中的沙漠种树机器人

在学校的沙地上,这款栽树机器人开始了第一次落地实验。它的履带碾过沙土,树苗真的可以一束一束种到沙土里。在经过几个版本的迭代之后,这款机器人已经具备种树、养护、避障等功能,并有自己适配的控制系统、AI感知能力和云端数据监测系统。

当开发者完成了从零到一的“入门”,进入了AI人才链条,如何面对更进一步的AI实战?高鸿志用自己的故事给出了这个问题的答案。在飞桨平台的支持下,更多学科与AI结合的可操作性变得更强、成本更低,助力更多学科背景的开发者攻克AI技术的应用难点,提升使用AI技术的效率。

对于一些传统型企业来说,百度的AI能力同样能够加速智能设备的研发,帮助企业的开发者跨越AI技术障碍。比如,中国南方电网的技术攻关团队就引入飞桨深度学习开源框架,为智能巡检机器人提供视觉赋能,用机器人巡视代替了原有的人工巡视,大大降低了运维成本、提升了企业的智能管理水平。

当AI走进行业,有多强?

AI技术总要走出实验室和比赛场,在行业前沿发挥作用。曾经传统的体育行业,已经是AI技术发挥作用的前沿领域。

比如在中国的体育强项乒乓球运动上,百度AI大有希望通过赋能乒乓球训练的方式,让乒乓球运动员的技战术水平和临场应变能力更上一层楼。

前国家乒乓球领队姚振绪告诉刺猬公社(ID:ciweigongshe),他们正在和百度合作,试图通过AI对运动动作进行精确识别、统计,根据统计数据对比赛的得失做出判断。

对于乒乓球训练而言,这些数据在经过研究之后,可以帮助运动员发现动作的准确与否、发力早晚,甚至帮助运动员判断如何正确地把力量集中到球上,通过合适的摩擦制造出正确的弧线,提高击球的成功率。

过去,这样的统计只能用人工的方式完成。这就造成了两个弊端。一是慢,由于乒乓球的瞬间变化很多,记录者很难在短时间内进行统计,因此无法作为临场应变的依据;二是不够准确,姚振绪举了一个例子,有时候人工往往只记录最后一板球的失分,却不能发现,这次失分是因为之前的某一板球就出现了失误,从而导致被动造成失分。

如果能用机器解决人工统计慢和不准的问题,对于乒乓球运动员的训练和比赛,将具有相当大的指导意义:在比赛时,运动员可以根据数据反馈调整技战术和心态;训练时,也可根据反馈规范动作、强化练习等等。

但其实现难度同样可想而知。

首先,由于动作识别一般基于比赛转播画面,乒乓球运动员时而面对摄像头、时而背对摄像头,容易遮挡动作识别;其次,运动员动作持续时间短且连续、密集,不同的技术动作,可能只有手腕摆动的角度和幅度的不同,同一种技术动作,不同运动员的挥拍路线也不尽相同,因此实现精确定位相当困难。

想要提高识别精度,仅仅数据标注这一环节就相当“专业”,需要标注者懂乒乓球技术。参与此次项目的知名乒乓球裁判吴飞向刺猬公社表示,对于一场比赛,她需要从发球时选手用的是侧旋发球还是逆旋发球,对局中的摆短、劈长等等一一标注,后来为了加快速度,他们还邀请了一批体育大学的研究生去做数据集的标注工作。

而当吴飞看到项目的Demo时,第一感觉是“惊艳”。那是一场马龙对阵樊振东的比赛,统计精度可以细化到每一板球的得失分和具体的技术动作,比如是搓球还是进攻,是正手拉还是反手拉等等。它的精度也相当高,起止回合准确率达到97%以上,动作识别达到了80%以上。

吴飞在百度AI开发者大会人才论坛上演讲

这,是吴飞和百度的工程师们经过50多次实验,尝试了20多种优化策略组合之后的的成果。曾经以为AI离自己很远的吴飞,也借助百度飞桨平台的AI能力,从乒乓球裁判、技战术分析的科研人员成长为AI开发者。

“现在已经进行了大量的技术动作的分析和判断,找出同样效果且略有差别的动作,把这些动作分别归类整理。”姚振绪说,“百度的年轻AI工作者接受这个挑战,无数次地、不厌其烦地去识别一个个动作。”

姚振绪还表示,AI技术和体育运动的技术结合是当今的潮流和趋向,也是体育科技的高地。“哪一个国家把这方面的工作做在前面、做好了,一定对这个国家的体育运动有很大的帮助。”

而当技术进一步成熟,AI技术还能用在指导普通乒乓球爱好者的训练上,助力全民健身。吴飞告诉刺猬公社,当更多“动作库”建立之后,AI可以向乒乓球爱好者提供反馈,对比纠正动作,比如手腕、肘肩的走向和位置等等。

除了乒乓球,百度AI还助力了我国另一个体育强项——跳水。在百度和国家跳水队的合作中,AI技术能够对训练视频进行摘要、动作抽取、姿势纠正等处理,快速整理归纳,方便对运动员的姿势、动作等进行针对性的指导,也可以在赛前集中回顾、观看。在奥运会赛前几个月的训练中,这套AI技术辅助运动员的训练效率提升了20%。

百度的AI能力正在行业前沿不断突破,这个体系培养出的AI人才,也正在为一个又一个传统行业带来新的可能——从制造业、农业的智能化转型到城市管理、金融服务的智慧升级,拥有了良好的AI人才基础。

“未来5年为社会培养500万AI人才”,在Create2021AI人才分论坛上,百度CTO王海峰再次提及这一目标。通过建设飞桨教育生态、成立百度松果学堂,百度将持续助力优秀AI人才的成长,“人人皆可成才”,培养懂技术、有产业实践经验的复合型AI人才。

助力大批AI人才成长的百度,也将在“智能时代”里成为不可或缺的人才源泉,发挥出越来越大的影响力。

1 阅读:19

刺猬公社

简介:内容产业垂直媒体