从上市风波中的四小龙与CV的中场战事看:科大讯飞的错位布局

科技四少 2022-01-05 11:08:41

2021年12月上旬,商汤科技首次公开募股定价本该正常进行,然而,美国财政部一纸政令给商汤的IPO进程带来新的波折。商汤被列入“军事工业复合体公司”黑名单,要求“美国相关”投资者一律不许参与商汤募资。但商汤上市后的表现似乎让美国失望了……

事实上,在AI领域,CV四小龙商汤、旷视、云从和依图作为AI行业的代表企业,一直以来备受各界关注,背后有庞大融资规模的因素,也有长期巨额亏损的因素,不同的人有着不同的关注角度,而美国虎视眈眈的则是这些企业代表的研究方向与已经展现出来的实力,会给其带来巨大的威胁。

当然,除了CV赛道,让美国不适的是整个中国的AI产业,除了CV四小龙,科大讯飞、海康威视等都在制裁的清单上。背后的原因显而易见,AI作为下一个20年全球化竞争的核心赛道之一,也是中美科创竞争的关键核心战场之一。而中国AI产业的先发优势与全面、深层次的布局已经形成了极强的竞争优势,并在各方面领跑全球。

但很显然,中国AI产业取得的成就并非是单个企业,而是体系化、系统化的领先,美国试图通过“制裁”、“拉黑”企业阻碍中国AI产业的持续性领先,这个算盘是敲不响的,以AI第一股科大讯飞为例,目前科大讯飞已经通过在智能语音、计算机机器视觉等感知智能领域的突破,以及深度学习、自然语言处理等认知智能层面的单点技术的突破,实现了系统性创新。

美国在怕什么?

数据显示,早在2019年,我国人工智能专利申请数量超过11万项,超过美国的8万项,稳居世界第一,计算机视觉作为全球布局最集中的领域,国内企业数量在全球占比也已超过40%。最新数据显示,2018年-2021年全球共新增申请了65万件人工智能相关专利,中国、美国和日本申请量分列前三,其中中国为44.5万件,占比68.5%。

专利数量的丰富度背后,则是中国市场应用场景的丰富度,无论是在布局广度还是深度方面,均已经形成了明显的竞争优势。同时,中国AI行业的创新普遍有着明显的原创性,占据着大部分创新应用的主导权,叠加场景应用的加速落地,后续发展势头依然强劲。

在过去科技领域,美国长期处于优势地位,也让美国在上一轮的竞争中有了躺着赚钱的实力,作为下一个二十年国际化竞争的核心赛道,AI代表的不仅是下一代的效率革命,也是国家实力的体现。基本面是,中国AI产业的强势崛起,无疑让美国感受到了威胁。

从这个角度来看,美国频繁拉黑中国AI企业的目的无非就是希望借此阻碍中国AI企业的发展,防止中国成为全球AI产业的领跑者,从而维护自身的技术优势去抢占下半场竞争的主导权。

事实上,美国在AI领域对中国的防备不是没有的。早在2019年初,特朗普政府就签署了“美国AI倡议”:为确保美国继续保持 AI 创新的领导地位, AI 倡议要求联邦机构根据各自机构的任务,在其研发投资中优先考虑 AI 研发。2020年初,美国为了缓解“领先地位”焦虑,推出“AI十原则”,其中强调“AI增长创新是美国政府高级优先项。”

然而,作为一个关键的赛道,这种“你追我赶”的竞争方式根本上无法缓解美国的焦虑,因为对AI的投入,中国从未放慢脚步,也因此“拉黑”成为美国新的竞争手段。

美国之所以觉得这种方式有用,也是抓住了目前AI企业持续高投入、亏损的痛点,通过阻碍AI企业上市融资的方式来釜底抽薪。但这一计划大概率落空,一来,像科大讯飞这样已经上市的企业,业务多元化布局,已经实现了规模化盈利,资金充足;二来,未上市的独角兽企业,本身具备技术创新实力,少了美国相关投资者,也不见得就彻底融不到钱了,以商汤为例,重启上市计划,在融资规模没有变化的情况下,基石投资规模反倒从原来的4.5亿美元,提升至5.1亿美元,可见市场对中国AI企业的看好。

NLP与CV双赛道演进,中国企业已抢先一步

从创新逻辑来看,及中美投资者偏好来看,美国AI领域主要偏重于底层基础创新,而中国AI企业则更加强调应用创新,这依托于过去中国互联网在各行业商业模式创新的优势,也意味着中国AI创新逻辑是场景与需求驱动的反向创新,有着更高的落地效率。

结果也是显而易见的,无论是计算机视觉技术、学习算法、还是自然语言处理,已经深度融合到了各行各业,从To B到To C全面覆盖,大到无人驾驶,小到文字识别。

回到本质来看,AI是什么?也即我们追求的AI的能力到底是什么?事实上,即是构造一个可以用于理解世界的结构,简单来理解的话,就是再造一个“人脑系统”,通过这个系统去理解世界的结构,然后去通过各种技能解放人类双手。从这个逻辑来看,AI未来的能力一定是集成式的,因为只有集成才会拥有更加丰富的智慧。其中,NLP(自然语言处理)与CV(计算机视觉技术)则是最为关键的两个环节,也即交流与观察。

这也是AI行业在单点技能实现突破后,下一个阶段的重要发展趋势,而这样的集成与融合在中国AI行业已经悄然展开。

早在2016年,基于强大的NLP技术沉淀,科大讯飞研发出一套深度全序列卷积神经网络的语音识别框架(DFCNN),该技术解决方案可以直接将一句语音转化成一张图像作为输入。简单来说,DFCNN技术方案可以通过“观看”语谱图即可理解语音中表达的内容。据了解,科大讯飞将这一计数法方案与诸多现有的技术点结合后,DFCNN的语音识别框架在内部数千小时的中文语音短信听写任务上,相比目前业界最好的语音识别框架双向RNN-CTC系统获得了15%的性能提升。

(DFCNN示意图)

一个技术方案背后,是科大讯飞早在2016年就已经展开了AI集成式能力的布局,从行业的角度来看,这是对下半场的提前布局,带领中国AI产业再一次实现抢先一步的跨越。

在业界的普遍认知里,科大讯飞是一家很强的语音公司。但实际上,除了语音的强之外,其在CV领域的布局几乎是与CV行业的快速发展几乎同步。早在2008年,科大讯飞就已经展开了在CV领域的探索,并且基于自然语言处理技术的深厚积淀,科大讯飞在CV赛道的逻辑也走出了差异化,比如在文本识别范畴,科大讯飞的解决方案来自于语音识别对连续波形转换的技术逻辑,在这一解决方案中,科大讯飞将语音识别中的HMM模型框架引入到文本行识别,大幅提升了精度。

2013年,科大讯飞的文本识别技术就已经应用于其主营业务之一智慧教育,并逐渐成为智能阅卷、评分测评甚至现在“因材施教”的个性化教育等应用的入口。

在文本识别生根发芽之际,科大讯飞又开启了计算机视觉领域其他技术方向探索的征程,从人脸识别、医学影像到辅助驾驶、虚拟形象等。

换个角度来看,科大讯飞在CV及NLP领域互相借鉴、融合底层的技术逻辑,这也为集成化的AI能力落地奠定了坚实的基础。在科大讯飞AI研究院,计算机视觉、认知、语音三大方向一盘棋,也形成了科大讯飞跨领域、融合式的创新的能力。

可以预见的是,在新的阶段,多种技术与场景需求的系统性创新是AI能力实现广泛落地的先决条件,同时,行业对集成化能力需求的进一步提升,也将进一步提升中国AI产业的竞争能力。

下半场将启,科大讯飞阳谋浮出水面

多项能力的集成是AI行业下半场开启的重要信号,这也是AI迈向新阶段的关键体现点。纵观CV和NLP两大核心能力的现状,在技术方面都实现了深度的突破,并且目前均已经实现广泛的落地与应用。

在语音市场,根据中国语音产业联盟发布的《2020~2021中国语音产业发展白皮书》,我国智能语音市场规模持续稳定增长,其中科大讯飞以60%市场份额稳居第一;根据艾媒咨询发布的《2020年中国人工智能产业专题研究报告》科大讯飞的综合实力和成长能力远超同行业竞争者,独占第一梯队。

无论是从市占率,还是技术实力等方面来看,科大讯飞在语音领域都处于寡头地位。在语音之外,事实上,CV领域科大讯飞也有着领先优势,取得了非凡的成就,如科大讯飞在计算机视觉顶级会议CVPR 2019和文档分析与识别顶级会议ICDAR 2019的多项评测任务中获得冠军;在ICPR MTWI图文识别挑战赛中包揽了全部三项任务的冠军等等;在2021年轻量级文字识别技术创新大赛中,科大讯飞以复杂自然场景83.29%的正确率,取得第一名。

我们也不难看出,科大讯飞除了NLP强,CV也同样很强,但相比于NLP,其在CV领域一直比较低调。一方面,在语音市场市占率超过60%的市场地位让业界对科大讯飞形成了固有的认知,叠加消费业务重点布局语音市场,也潜移默化的削弱了其在CV领域的声量。除了这一客观因素之外,也有科大讯飞的主观因素。

作为深耕AI行业20余年的龙头企业,对于AI本质的理解肯定是更加深刻与完善的,自然也有更加超前的战略眼光,从其在2008年就展开了在计算机视觉领域的布局也不看看出这一点,即科大讯飞长远的布局逻辑是多元布局、单点突破,再实现系统性的创新能力,从而实现自身的跨越式发展,带领行业提前进入下半场。

至此,我们也可以明显看出背后的逻辑,从行业角度来看,行业对AI能力的需求逐渐进入集成化时代,且无论是CV赛道,还是NLP赛道在技术上都已实现了重大突破,大规模落地应用,下一阶段的重点多项技术的集成化;对于科大讯飞来说,双赛道布局,且底层技术逻辑相互借鉴共用的思路,能更加快速地实现集成化发展。

不可忽视的是,新阶段,必然是新领域、新的解决方案,所以AI行业持续的投入还在继续,纵观全球范围,目前的AI企业大都以单点突破为主,在后续的发展中缺钱依然是常态,而科大讯飞除了先发优势,也是最不缺钱的那一个。抢占先机、掌控主导权,似乎科大讯飞已经胜券在握。

也同样,在下半场的国际竞争中,也为中国AI市场赢得了新的提前进场的入场券,而美国以“拉黑”企业阻碍中国AI持续领先的计划,怕是又要落空了……

0 阅读:42

科技四少

简介:带你看不一样的科技