是什么卡住了大模型创业?

科技行者 2023-07-21 18:22:27

作者|周雅

2023年春天,国内外AI人工智能度过了一个“疯狂三月”, GPT4、MetaAI、斯坦福等国际大机构分别发布了AI大模型;国内也不甘落后,据不完全统计,目前国内已有百余个AI大模型先后发布,更被舆论渲染为“群模大战”。大模型俨然成为了全球人工智能竞赛的主战场。

但是在大模型层面,高投入、高风险、高回报是其投资特点,这需要具备大算力、大数据和强算法等核心技术能力,技术门槛高、规模效应强,属于科技巨头的竞赛。那这是不是意味着初创公司“没戏了”?AI大模型创业投资,到底是不是蓝海?如果不做通用大模型,垂直模型的蛋糕有多大?

对此,行行AI、科技行者、创投变辩辨、至顶科技,联合组织了一场沙龙直播,至顶科技CEO兼总编辑高飞作为沙龙主持人,对话四位AI大模型领域的创业者:北京橙溪科技创始人陈炼、VitallyAI CTO蒋镒珍、波特时空创始人刘大鸿、宁夏云瑞致胜科技有限公司CEO于千城,一起深度探讨AI大模型风口下的新机遇、新挑战。

【Part 1】大模型的机会到底有多大?

(1)谈下一个大模型:给时间,总能大力出奇迹

高飞:在大模型领域,巨头已经纷纷下场,国内的大模型创业还有没有机会诞生下一个OpenAI?

于千城:这要区分来看。单从规模体量来看,有一定可能。但从创新性和社会责任感的角度,可能性几乎没有。

中国的公司还是太急功近利了,没有哪一家公司真正静下心来说“我真的是要推动生产力、推动社会的进步”,几乎找不到这样的公司。如果不能静下心思考,还是很难实现突破的。

但中国有这么大的市场,若是出现一两个有影响力的公司应该毫无问题,毕竟这是时代发展的趋势。中国人实现从“1到N”的能力非常强,但是“从0到1”会存在社会机制、环境土壤的局限性。

蒋镒珍:我的想法不太一样。中国的大模型创业公司能否搞出一个OpenAI,答案基本上是No。OpenAI背后有个“金主”微软,OpenAI全是炼金术,一路都在做实验,大语言模型(LLM)基于GPT的所有实验它基本上都做完了,做着做着才搞明白,ChatGPT最终才出来了。整个过程冒很大风险。

所以中国创业公司想搞出同样的OpenAI,可能性几乎没有,但是会出现类似于“OpenAI”的东西,因为现在用不了美国的,中国只能自己搞。

国内的大厂,不管是百度还是阿里,肯定也知道自己要做一个通用大模型,至少是GPT-4的水准。所以,中国肯定会出现一个大模型,至于到底花落谁家?百度实力是有的。

总之,大语言模型在我看来,已经不是一个科学技术问题,而本质上就是一个工程问题,给点时间,总能大力出奇迹。

(2)谈大模型创业:我们有一个什么样的互联网,就会有一个什么样的大模型

高飞:大家虽然认为,国内会出现类似的大模型创业公司,但这中间肯定有困难之处。记得早些年谈大数据之难,咱们有4个“V”标准(规模性Volume、高速性Velocity、多样性Variety、价值性Value),那么同样的问题,大模型的创业难度到底“难”在哪?是数据、算力、算法、资金、政策,到底是哪里卡住了大模型创业?

蒋镒珍:大模型的创业基本上跟创业公司没关系,尤其是通用大模型,只有大玩家才能“烧”的起。而对于中国第一个大模型,这里头的障碍首先是数据。

OpenAI的数据基本是按照token来计算,而互联网能爬取来训练的数据量,也就10T-20T的token,况且国内的很多英文数据质量比较糟糕,很多科学期刊/学术论文的英文数据,相对还是要比中文富裕一些,只有片面的数据是悟不出背后的数据规律的。这里面还要注意,不能有错误数据,因为低质量的错误数据会压着模型长智力;再加上中文还有一些敏感词和敏感信息被过滤掉了,这些都会影响国内大模型的数据。

其次还有算力的挑战。大模型的预训练对卡的要求高到让人恐惧,是成千上万块英伟达A100来支撑的,但是没有卡你咋训练大模型。所以能训练大模型的公司,卡肯定得有,数据得有,这两个挑战加起来已经够大了。

算法上我倒是觉得挑战不大,因为算法基本已经成型,顶多你把模型的形状改一改,能够更适配GPU,或者把模型里的某个关键环节改一改算子,也不是什么问题,因为它已经成熟了。

刘大鸿:一方面,我觉得大模型的“大”更多是指“广”,像ChatGPT覆盖的范围非常广。语言本身是一个复杂的网络,如果覆盖不够广,很难去概率接龙,导致很多数据无法生成。

目前,国内很多大模型不算严格意义上的大模型,更像是一个简体中文的垂直模型,覆盖面有限。为真正达到大模型的效果,需要涵盖更多领域和语言,这需要大量高质量的数据作为支撑,这对国内来说是一个短板。

国内网上公开的数据越来越少,而高质量的内容都出现在一些相对私域的地方,这都会影响大模型的训练结果;同时,国内很多的网络数据,经过了大量的过滤和敏感内容的处理,最终也会导致大模型的训练结果有缺憾。

另一方面,大模型的“大”还体现在“工程浩大”,这个问题在包括中文在内的所有语言环境下存在。最初我看到一些报道,英文刚训练出来的内容也是不忍直视的,OpenAI经过了大量的强化训练,经过了RLHF(reinforcement learning from human feedback,译为“以强化学习方式依据人类反馈优化语言模型”),把这些内容做了人类偏好的处理。

数据处理是一个非常浩大的工程,需要大量人力和时间积累。就像刚才蒋总所说,“算法”已经趋于成熟,“数据”可能大公司也有不少,但是要实现整个工程就很难,并不是一堆原材料加一个方法就能做出来。

所以,国内大模型也要经历从最初的内容出现、到不断强化、到人类不断反馈的一个生长过程,它可能会比OpenAI快一点,但快不了太多。我记得当时百度创始人李彦宏出来演讲时说,“可能我们差几个月或者差两年”,但后面还接了句话说,“也可能我们永远追不上”,这话我觉得是有深层含义的。

就像我们现在回看中国互联网,大模型像是互联网本身的映射,我们有一个什么样的互联网,就会有一个什么样的大模型。所以,从体量上我们可能会做出来一个很大的公司,但是在数据的广度和工程上,还是有一个漫长的过程。

(3)谈大模型弱点:避免AI盛产垃圾信息

高飞:我们刚才谈的略有些悲观色彩,但是既然说到投资创业,总得向前看,有投资人提到 “大模型的弱点就是中国AI领域未来的创业机会”,你们认为既有玩家是否有致命弱点?

于千城:这扇窗已经被打开了,未来一定是往这个方向去走。既然中国有这么大的市场和需求,国家为什么还在观望?我认为AI的“奇点”时刻确实是到了,所以尽管方向是对的,但是种种不确定因素还没有被排除掉,所以国家也没有完全在这块发力。但是,各行各业都在发力,因为大家知道这是大趋势。

中国的市场体量在那摆着,众人拾柴火焰高,我相信中美之间未来在AI赛道的差距不会太大。从数据的角度,这么多年来,国人已经习惯把学术成果用英文来发表,给英文积攒了大量的语料,但是国家应该会越来越重视这件事,会慢慢的去积攒有质量的中文语料,去训练符合国家需要的大模型,所以从前景来看,很难说中国会在这一块落后多久。

陈炼:有个致命弱点。大模型所产生的内容,会不会成为曾经互联网时代的垃圾邮件?人工智能确实是提升了内容生产的效率,但是没有提升内容消费的效率,这会让很多人处于一种垃圾信息的获取状态。

大模型生成的内容里,很多都是没有灵魂的,纯粹是为了节省成本而创造,这对社会可能并不是进步,甚至可能变成一个曾经的垃圾邮件状态,这是致命问题。

【Part 2】大模型到底是不是创造了iPhone时刻?

(1)大模型与应用=iOS与App Store?

高飞:关于大模型,投资也好,创业也好,如果像黄仁勋说的是AI的iPhone时刻,大模型和应用的关系会不会类似iOS和App Store的关系?

陈炼:它们其实有很大的类似之处。iOS操作系统,本身是一个图文、视频、语音的交互存储系统,是最底层的一个电子系统。而大模型更像是一个云服务平台,是从图文、视频、语音量变引起质变的一个基于权重随机的智能算法产物。它们本质都是基于图文、视频、语音做的一个操作系统,这是它们的相同点。

不同点在于,一个是硬件操作系统,另外是一个算法操作系统,在算法操作系统上一定会衍生出各种各样的、基于人们生活工作的、不同领域的App,所以这种可能性是存在的。

于千城:我也觉得会有。量变产生质变,不光是在大模型上,在整个生态上也是一样。各行各业的人都在创新,都在从他们的视角产生新想法,没准儿某一天某行业某个人想出一个奇特的应用场景,所以我觉得形成应用商店是迟早的事情。

高飞:那我们有信心了,开发出一个媒体大模型应用出来。

(2)谈大模型与小模型:要通才,也要专家

高飞:有些ToB用户会有疑问说,大模型的应用应该怎么开发,如何把大模型的通用理解能力解耦出来,产生一种混合大模型或私有大模型?就像云领域的混合云和私有云。

蒋镒珍:这肯定存在。首先真正的能叫得上大模型的,目前只有一个OpenAI的GPT,GPT-4叫大模型,GPT-3.5都有点弱。

但通用模型有个问题,因为它学的知识大都是泛泛的、通用的东西,这就导致很难完全对应到垂直领域。你让一个人熟读百书什么都懂,和一个行业专家放在一起,它的语料非常不一样。所以你不可能要求一个通用大模型是全才,在各行各业都是专家,这对于它来说太难了。

所以垂直大模型绝对会存在,垂直大模型有可能还能细分,比如医疗行业都能细分出一大堆,偏向不同倾向的模型。

刘大鸿:拿我们公司的创业实践来看,很多企业找我们想做一个自己的企业模型,比如说集团公司,它内部的资料非常多,觉得搜索起来很麻烦,就想要开发一个模型,像ChatGPT一样,只要向它提问,它就能回答对应的内部资料内容。

这件事不好做(要是好做,我估计都能做20个客户了),但为什么难做?因为当我们训练模型时,发现如果没有大模型的语言能力,训练出来的东西它不会说话。

后来我有一个结论,这个结论可能对,也可能不对。在目前阶段,一个垂直模型很难脱离大模型之外独立成型,小模型或垂直模型是依附大模型的一个产物,它仍然要有基于大模型的语言能力。今天的大模型是Large Language Model,本质上还是语言模型,垂直模型很难有这种语言能力(它可能有内核训练出来,目前我们的解决方案就是这么训练的)。所以,垂直模型一定是未来的大趋势,这是第一点。

第二,未来每一个在互联网向外输出内容的企业和个人,他们或许都会有模型。五六年前我看过一本书,讲人工智能算法的,说到了模型的概念,说未来是一个模型社会,每个人、每个企业都有模型。比如员工去公司面试,其实是员工的模型和这家公司的模型先进行了交互,觉得OK了,员工的肉身再去面试。我觉得这个设想是成立的。

像是在互联网上活跃的每个人,或者是一些消费者,都可能会形成各自的模型。今天的数字人背后,未来都会是一个小模型。我就在训练我的模型,训练好以后,我去抖音上,一边是我另一边是他,我们不停的对话,让他接受我的思想,让他越来越像我,他们也可以去学一些新东西,我觉得这是完全有可能的。

未来的大模型,包括百度的文心一言、阿里的通义千问、OpenAI的ChatGPT,它们已经云化了,我觉得大模型就是云。企业或个人有很多的数据,有的数据是私有的,无法向大模型去投喂。所以我觉得未来要出一些协议,什么样的数据是大模型“允许采集的”和“不允许采集的”,什么样的数据要通过加密算法、然后去脱敏、再去投喂给它(模型)等等,我觉得有非常多的空间可以做。但是我坚信的是,未来会有垂直模型,甚至个人会有模型。

(3)谈大模型之上的超级应用

高飞:我们还想探讨的是,如果说99%的应用都是基于ChatGPT开发的,那么这些应用是否还有成长的潜力?其实TikTok某种程度上来说,是基于移动平台之上长出来的一个应用,所以大模型未来是否会长出一个超级巨头出来?

陈炼:一定能。大模型本质上会让草根创业变得更难,它会形成更有优势的垄断。大模型依赖强大的数据、算力,这其实是好多公司无法达到的,所以它的垄断更容易。

蒋镒珍:有点难说。因为ChatGPT在我看来它是个工具,OpenAI自己可能也在苦恼,“大家跟我的工具聊天,我也赚不了多少钱”,所以在它内部已经看到了一些外围的应用,不管是感知上、信息获取、还是应用场景,ChatGPT实际上是很难全打通的,而这个权利是握在创业者手上的,所以硅谷的创业基本上都是在ChatGPT之上干点什么小事儿。

我也希望看到大模型之上,能让开发者在上面做应用,这件事迟早会发生。但要说这上面能不能长出一个巨大的应用,一个应用把什么事都干了,目前还看不太清楚,因为现在是百花齐放的状态。

刘大鸿:我觉得一定会的,原因很简单,今天的大模型一定会成为智能云,目前基于阿里云诞生的、用阿里云服务的公司有很多,美国很多公司都用亚马逊云科技,这很正常。

今天我们来看整个生态,OpenAI的月活已经达到10亿,我认为这不仅仅是它本身做得好,而是AI技术的突破,让获取AI能力的成本一下子降得非常低。所以巨头的敌人可能不是这些挑战者,而是到了某个时间一定会突然出现,然后巨头就会被替代掉或被遗忘掉。

我去拜访微软时,学到一个词叫“单位智能(Unit Intelligence)”,这个词是OpenAI创始人Sam Altman和LinkedIn联合创始人Reid Hoffman在一次访谈中提到的,当你获取单位智能的费用和资源是之前的千分之一时,你作为个人、企业愿意为智能付费的意愿增加一千倍的时候,你把这两个事情乘在一起,就是10的6次方 (一百万倍),你要思考的是这个事情就在发生,即使在你的行业还没有发生,那么很快它就会发生。

当你是一个个人、一个产品团队、一个组织、一个公司或者整个国家,当你的手中有10的6次方的单位智能时,你可以想象这个世界会变成什么样?所以我认为在未来的1-2年,会看到有一个新东西出来,快速成长成为一个巨头,这是毋庸置疑的事情。

于千城:我认为一定是能的,原因有两个。第一,大模型不会跳出Gartner技术成熟度曲线,也就是会有一个泡沫期,大家都蜂拥而上,最后跌落低谷,那么最后坚持下来的一定成为真正的主宰者。

第二,这东西它现在毕竟还不是生产力,造工具的企业一定很难亲自把这个工具用到生产领域,因为它不懂生产,不能跟各行各业相结合,所以终究会有一个大巨头出来,把工具变成生产力,来推动社会发展。

高飞:我觉得很难。苹果是一个硬件公司,所以它对于开发太复杂的应用,其实没有那么大野心。而OpenAI是一个互联网公司,尤其是国内这些互联网公司做大模型,其实有很强的做应用的冲动,比如阿里有钉钉,腾讯有腾讯会议,所以巨头会不会把空间留出来,我要打个问号。我倒不是说不可能有巨头应用出现,而是,是否存在这样一个市场空间的问题。

(4)大模型值得让“大部分行业”都再做一遍

高飞:前一阵子,陆奇在奇绩创坛有个论断被刷屏了,他说大模型值得让所有行业都重新再做一遍,你们怎么看待这个问题?

刘大鸿:这对“大部分行业”应该是成立的,只是会有个先后顺序。数字经济领域一定是先开始,慢慢再延伸到制造业、电商、外贸等,我觉得不是每个公司都会去做大模型,但每个公司一定都会有自己的模型。

但再做一遍的方式是什么?ChatGPT出现之后,人机交互的方式发生了根本性变化(就像从诺基亚到iPhone一样),以后所有产品的交互方式都会是以Chat为主。

未来,所有行业交互的效率,也会从过去的复杂方式变为自动化、智能化,这会是所有行业变化的“点”,由于交互方式发生了变化,所以效率革命一定会推动所有行业再做一遍。

陈炼:现在的AI看上去很智能,但其实智力是很弱的,它是基于量变引起质变的、基于数据权重的一个随机智能算法产物,它其实并没有真实的思考能力。但如果有一天,AI真能达到人的主动性思考能力时,确实需要去按照人工智能的方式再做一遍。

【Part 3】大模型是不是有血型?

(1)论大模型的自我修养

高飞:接下来我们来探讨一个内在问题,我们会发现,跟大模型交流起来,它还挺有道德修养的,甚至有政治正确的敏感性,这是如何修炼出来的?

陈炼:主要看数据的基因和后天的培养。首先,当训练数据本身具有政治正确性的时候,那么这个模型就会表现出政治正确性。其次,用一些技术手段来增强模型的道德和政治正确性,比如在算法上加一些规则和约束,来避免大模型产生偏见和歧视性的文本。

(2)AI分不分本地人?

高飞:各国都在做大模型,道德规范都不一样,以后是否会进化出不同血型的大模型?就像我们各个民族一样,每个国家都有自己种族的大模型?

陈炼:我觉得不太会。大模型很像是一个操作系统,大家在使用Windows操作系统时,如果发现系统崩溃了,就提交一个报告上去,微软那边就修复系统的一个Bug。所以,用的人越来越多,提交的Bug也会越来越多,Windows打的补丁也越来越多,系统就会越来越完善。

同理,大模型在使用过程中,训练方也会用数据训练数据,但是它存在一个问题,就是不同国家、不同区域的人使用的大模型其实是被全球垄断的,全球的通用大模型其实只有那么几个,当全球人在用这些大模型的时候,只会在完善这些大模型,但是并不会衍生出不同血型的大模型。就像操作系统一样,全球也只有几个操作系统。

除非是垂直领域,每个领域都有自己的模型,肯定会随着当地使用人的习惯不同,训练数据的不同,而造就出不同的垂直模型。

蒋镒珍:如果是通用大模型,基本上是被顶部两三个玩家给垄断了。做应用的,肯定会挑通用能力更强的,弱一点就不会被选,生态也会督促顶部的几个模型存活下来,所以大模型不会有各国的血型。

刘大鸿:我觉得一定会。就像字典,全球有名的字典是有限的,但是用有限的字典写无限的文章的人太多了。所以最后一定会诞生出各种各样的、不同特征的大模型。

现阶段,我觉得文心一言、ChatGPT的回答不好玩,我们人类在聊天时是有非常丰富的情绪、情感、表情的,但是大模型现在还做不到,我觉得以后一定会出来,哪天我去训练一个会说人话的大模型出来。

于千城:我觉得一定会。第一,大模型不仅仅是一个生产力技术,它对社会的影响是革命性的,所以文化、政治、军事等方方面面都会受到影响。第二,人其实是喜欢当造物主的,好不容易造出一个硅基生命,自然也会想要把它做的更丰富,人类一定会朝这个方向努力。

高飞:插个题外话,大模型时代,巨头都在快马加鞭的布局,唯独腾讯没有动静,腾讯是不是掉队了?

刘大鸿:小马哥在网上有个讲话,说“我们不急于去造灯泡”,这就对应到之前业界有个比喻说“大模型像电力革命一样”,所以如果大模型是电厂,那么我们生产产品的公司就是造电器的。

腾讯现在为什么还不着急?我有次跟腾讯的一个核心工程师吃饭,听他讲公司内部在做混元大模型,以及在应用层面上的一些想法,听到后面我连饭都没心思吃了,就想着赶紧回去干活,因为我觉得,如果腾讯的产品推出,市场上很多产品就没有存在的价值了。所以我认为腾讯并没有闲着,而是会一步迈到应用产品。

(3)大模型时代下,创业者还能做什么

高飞:如果说未来中国有自己的大模型,国外有国外的大模型,那么国内与海外对大模型领域投资逻辑的本质差别在哪里?

于千城:我觉得国外公司从技术储备、到投资的远瞻性,要远远超乎我们的想象。国内很多都在说,美国主要把大模型放在C端,但是我相信他们在B端应该已经做了很多沉淀,只不过没有把它公布出来。

国内应该是有实力跟美国叫板,因为互联网红利见顶之后,大家还是有创新需求,AI正好给了大家这样一个机会,跟元宇宙技术结合起来,前途会比较清晰,所以每个公司都会在这上面发力,资本市场当然也不会落后。

所以我的观点是,现在也没法谈谁好谁坏,两个国家肯定都在发力。只不过我们对美国的认识可能不清晰,真实的差距到底多大,其实我们不清楚。

刘大鸿:国内在大模型领域的投资,相比于美国来看,我觉得还是差很远,完全不在一个量级上,它的创新速度以及产品迭代速度远超国内。我甚至感觉我们是给国外大模型做宣传的,国内媒体比较发达,事实上做的人还是非常少。

陈炼:国外可能更偏重长期的价值投资,不管是特斯拉,还是OpenAI,他们都是投资了10年8年才开始有回报。但国内可能更偏向于短期效益,两三年之内是不是能实现盈利,能不能有流水,有多少活跃用户,可能更偏向于这些。

所以现在的垂直大模型非常高效,因为它一训练出来立马就能见效,比如医疗模型搞一个大前端都能挣钱。

蒋镒珍:确实美国的创新能力很强,中国离人家的距离还很远,比如大模型这一波的投资。美国的好多投资你不用看什么回报,谁知道哪一天才能回来呢,它更大的野心很有可能很长远,我们没办法想那么远。

高飞:梦想总要有的,我们的生活也要继续,总要做点什么事情。如果从总要做点事情的角度,基于大模型这一代,你们接下来想干点啥?

于千城:对于我们初创公司而言,训练模型、微调模型这些路数基本上是不可能的,所以我们现在的主要工作,就是用本地知识库,把客户的数据变成本地的知识,辅助大模型来做垂直应用。

我们在夹缝当中,只能先让客户接触到这种大模型工具,哪怕它不够准确,但是类似于做市场教育,让大家都知道这个时代已经到来了。

蒋镒珍:我完全跟于总站在同一条战线上,因为咱们做大模型压根就没戏,如果代价不高的话,做微调还是敢调的。实际上,行业客户已经被AI浪潮的风吹到跃跃欲试,而且看到AI确实有很多用处,所以机会缝儿是有的,至于机会到底有多大,我们先冲进去再说,在垂直领域先深耕一下。

陈炼:我们虽然是小公司,但是我们有两台A100服务器,也训练出来了医生、律师等行业的垂直模型,部署了几家出版社,都已经商用。

但是我现在真正想做的产品是“谁是谁”,因为在大模型时代,AI可以克隆人的声音、克隆人的视频、产生很多垃圾信息,所以我们想把“真实的”和“AI的”做一个识别,到底谁是谁,这肯定是下一个会爆发的需求点。

刘大鸿:从去年开始,我们已经在尝试做个人助手,国外有一个对标产品叫“Pi”,我们做的是中国的Pi,只是我们比他们做的早一点。我们的产品叫“快秘书”,给每个人设计一个AI助手,同时也会给每个在网上输出内容和服务的个人做垂直模型,这个市场欢迎度比较高。

【嘉宾简介】

主持人:

高飞,知名媒体人,至顶科技CEO兼总编辑,中国轻工业信息中心智慧生活产业促进中心副主任,中国上市公司协会信息与数字化委委员。他长期致力于数字经济、数字化转型等方面的课题研究,参与撰写了《中国云计算产业发展白皮书》等多份权威报告。作为知名科技策展人,其参与策划的“世界智能大会”,是AI领域的首个国家级国际性会议。

对话嘉宾(排名不分先后顺序):

蒋镒珍, 多年互联网/AI经验,在Adobe, HP software负责过研发软件产品,目前在初创VitallyAI任职CTO。最近主要关注大模型:文生文, 文生图以及多模态的实际垂直市场的应用。目前聚焦营销/市场领域的AIGC应用开发和服务。

于千城,宁夏云瑞致胜科技有限公司CEO,目前聚焦于AI大模型创业,致力于服务垂直行业中小企业客户。

陈炼,北京橙溪科技创始人,从事人工智能(大模型训练)、互联网(出版社等等)、虚拟3D(虚拟办公室)、区块链(公网Dapp,Layer2)等研发)。

刘大鸿,波特时空创始人。10亿级AI数据预处理经验,互联网科技领域连续创业者,分布式存储算法发明专利发明人。

0 阅读:20

科技行者

简介:科技行者,一个只谈智能的信息服务平台。