是什么卡住了大模型创业？ - 科技资讯(玩酷网)

作者｜周雅

2023年春天，国内外AI人工智能度过了一个“疯狂三月”， GPT4、MetaAI、斯坦福等国际大机构分别发布了AI大模型；国内也不甘落后，据不完全统计，目前国内已有百余个AI大模型先后发布，更被舆论渲染为“群模大战”。大模型俨然成为了全球人工智能竞赛的主战场。

但是在大模型层面，高投入、高风险、高回报是其投资特点，这需要具备大算力、大数据和强算法等核心技术能力，技术门槛高、规模效应强，属于科技巨头的竞赛。那这是不是意味着初创公司“没戏了”？AI大模型创业投资，到底是不是蓝海？如果不做通用大模型，垂直模型的蛋糕有多大？

对此，行行AI、科技行者、创投变辩辨、至顶科技，联合组织了一场沙龙直播，至顶科技CEO兼总编辑高飞作为沙龙主持人，对话四位AI大模型领域的创业者：北京橙溪科技创始人陈炼、VitallyAI CTO蒋镒珍、波特时空创始人刘大鸿、宁夏云瑞致胜科技有限公司CEO于千城，一起深度探讨AI大模型风口下的新机遇、新挑战。

【Part 1】大模型的机会到底有多大？

（1）谈下一个大模型：给时间，总能大力出奇迹

高飞：在大模型领域，巨头已经纷纷下场，国内的大模型创业还有没有机会诞生下一个OpenAI？

于千城：这要区分来看。单从规模体量来看，有一定可能。但从创新性和社会责任感的角度，可能性几乎没有。

中国的公司还是太急功近利了，没有哪一家公司真正静下心来说“我真的是要推动生产力、推动社会的进步”，几乎找不到这样的公司。如果不能静下心思考，还是很难实现突破的。

但中国有这么大的市场，若是出现一两个有影响力的公司应该毫无问题，毕竟这是时代发展的趋势。中国人实现从“1到N”的能力非常强，但是“从0到1”会存在社会机制、环境土壤的局限性。

蒋镒珍：我的想法不太一样。中国的大模型创业公司能否搞出一个OpenAI，答案基本上是No。OpenAI背后有个“金主”微软，OpenAI全是炼金术，一路都在做实验，大语言模型（LLM）基于GPT的所有实验它基本上都做完了，做着做着才搞明白，ChatGPT最终才出来了。整个过程冒很大风险。

所以中国创业公司想搞出同样的OpenAI，可能性几乎没有，但是会出现类似于“OpenAI”的东西，因为现在用不了美国的，中国只能自己搞。

国内的大厂，不管是百度还是阿里，肯定也知道自己要做一个通用大模型，至少是GPT-4的水准。所以，中国肯定会出现一个大模型，至于到底花落谁家？百度实力是有的。

总之，大语言模型在我看来，已经不是一个科学技术问题，而本质上就是一个工程问题，给点时间，总能大力出奇迹。

（2）谈大模型创业：我们有一个什么样的互联网，就会有一个什么样的大模型

高飞：大家虽然认为，国内会出现类似的大模型创业公司，但这中间肯定有困难之处。记得早些年谈大数据之难，咱们有4个“V”标准（规模性Volume、高速性Velocity、多样性Variety、价值性Value），那么同样的问题，大模型的创业难度到底“难”在哪？是数据、算力、算法、资金、政策，到底是哪里卡住了大模型创业？

蒋镒珍：大模型的创业基本上跟创业公司没关系，尤其是通用大模型，只有大玩家才能“烧”的起。而对于中国第一个大模型，这里头的障碍首先是数据。

OpenAI的数据基本是按照token来计算，而互联网能爬取来训练的数据量，也就10T-20T的token，况且国内的很多英文数据质量比较糟糕，很多科学期刊/学术论文的英文数据，相对还是要比中文富裕一些，只有片面的数据是悟不出背后的数据规律的。这里面还要注意，不能有错误数据，因为低质量的错误数据会压着模型长智力；再加上中文还有一些敏感词和敏感信息被过滤掉了，这些都会影响国内大模型的数据。

其次还有算力的挑战。大模型的预训练对卡的要求高到让人恐惧，是成千上万块英伟达A100来支撑的，但是没有卡你咋训练大模型。所以能训练大模型的公司，卡肯定得有，数据得有，这两个挑战加起来已经够大了。

算法上我倒是觉得挑战不大，因为算法基本已经成型，顶多你把模型的形状改一改，能够更适配GPU，或者把模型里的某个关键环节改一改算子，也不是什么问题，因为它已经成熟了。

刘大鸿：一方面，我觉得大模型的“大”更多是指“广”，像ChatGPT覆盖的范围非常广。语言本身是一个复杂的网络，如果覆盖不够广，很难去概率接龙，导致很多数据无法生成。

目前，国内很多大模型不算严格意义上的大模型，更像是一个简体中文的垂直模型，覆盖面有限。为真正达到大模型的效果，需要涵盖更多领域和语言，这需要大量高质量的数据作为支撑，这对国内来说是一个短板。

国内网上公开的数据越来越少，而高质量的内容都出现在一些相对私域的地方，这都会影响大模型的训练结果；同时，国内很多的网络数据，经过了大量的过滤和敏感内容的处理，最终也会导致大模型的训练结果有缺憾。

另一方面，大模型的“大”还体现在“工程浩大”，这个问题在包括中文在内的所有语言环境下存在。最初我看到一些报道，英文刚训练出来的内容也是不忍直视的，OpenAI经过了大量的强化训练，经过了RLHF（reinforcement learning from human feedback，译为“以强化学习方式依据人类反馈优化语言模型”)，把这些内容做了人类偏好的处理。

数据处理是一个非常浩大的工程，需要大量人力和时间积累。就像刚才蒋总所说，“算法”已经趋于成熟，“数据”可能大公司也有不少，但是要实现整个工程就很难，并不是一堆原材料加一个方法就能做出来。

所以，国内大模型也要经历从最初的内容出现、到不断强化、到人类不断反馈的一个生长过程，它可能会比OpenAI快一点，但快不了太多。我记得当时百度创始人李彦宏出来演讲时说，“可能我们差几个月或者差两年”，但后面还接了句话说，“也可能我们永远追不上”，这话我觉得是有深层含义的。

就像我们现在回看中国互联网，大模型像是互联网本身的映射，我们有一个什么样的互联网，就会有一个什么样的大模型。所以，从体量上我们可能会做出来一个很大的公司，但是在数据的广度和工程上，还是有一个漫长的过程。

（3）谈大模型弱点：避免AI盛产垃圾信息

高飞：我们刚才谈的略有些悲观色彩，但是既然说到投资创业，总得向前看，有投资人提到 “大模型的弱点就是中国AI领域未来的创业机会”，你们认为既有玩家是否有致命弱点？

于千城：这扇窗已经被打开了，未来一定是往这个方向去走。既然中国有这么大的市场和需求，国家为什么还在观望？我认为AI的“奇点”时刻确实是到了，所以尽管方向是对的，但是种种不确定因素还没有被排除掉，所以国家也没有完全在这块发力。但是，各行各业都在发力，因为大家知道这是大趋势。

中国的市场体量在那摆着，众人拾柴火焰高，我相信中美之间未来在AI赛道的差距不会太大。从数据的角度，这么多年来，国人已经习惯把学术成果用英文来发表，给英文积攒了大量的语料，但是国家应该会越来越重视这件事，会慢慢的去积攒有质量的中文语料，去训练符合国家需要的大模型，所以从前景来看，很难说中国会在这一块落后多久。

陈炼：有个致命弱点。大模型所产生的内容，会不会成为曾经互联网时代的垃圾邮件？人工智能确实是提升了内容生产的效率，但是没有提升内容消费的效率，这会让很多人处于一种垃圾信息的获取状态。

大模型生成的内容里，很多都是没有灵魂的，纯粹是为了节省成本而创造，这对社会可能并不是进步，甚至可能变成一个曾经的垃圾邮件状态，这是致命问题。

【Part 2】大模型到底是不是创造了iPhone时刻？

（1）大模型与应用=iOS与App Store？

高飞：关于大模型，投资也好，创业也好，如果像黄仁勋说的是AI的iPhone时刻，大模型和应用的关系会不会类似iOS和App Store的关系？

陈炼：它们其实有很大的类似之处。iOS操作系统，本身是一个图文、视频、语音的交互存储系统，是最底层的一个电子系统。而大模型更像是一个云服务平台，是从图文、视频、语音量变引起质变的一个基于权重随机的智能算法产物。它们本质都是基于图文、视频、语音做的一个操作系统，这是它们的相同点。

不同点在于，一个是硬件操作系统，另外是一个算法操作系统，在算法操作系统上一定会衍生出各种各样的、基于人们生活工作的、不同领域的App，所以这种可能性是存在的。

于千城：我也觉得会有。量变产生质变，不光是在大模型上，在整个生态上也是一样。各行各业的人都在创新，都在从他们的视角产生新想法，没准儿某一天某行业某个人想出一个奇特的应用场景，所以我觉得形成应用商店是迟早的事情。

高飞：那我们有信心了，开发出一个媒体大模型应用出来。

（2）谈大模型与小模型：要通才，也要专家

高飞：有些ToB用户会有疑问说，大模型的应用应该怎么开发，如何把大模型的通用理解能力解耦出来，产生一种混合大模型或私有大模型？就像云领域的混合云和私有云。

蒋镒珍：这肯定存在。首先真正的能叫得上大模型的，目前只有一个OpenAI的GPT，GPT-4叫大模型，GPT-3.5都有点弱。

但通用模型有个问题，因为它学的知识大都是泛泛的、通用的东西，这就导致很难完全对应到垂直领域。你让一个人熟读百书什么都懂，和一个行业专家放在一起，它的语料非常不一样。所以你不可能要求一个通用大模型是全才，在各行各业都是专家，这对于它来说太难了。

所以垂直大模型绝对会存在，垂直大模型有可能还能细分，比如医疗行业都能细分出一大堆，偏向不同倾向的模型。

刘大鸿：拿我们公司的创业实践来看，很多企业找我们想做一个自己的企业模型，比如说集团公司，它内部的资料非常多，觉得搜索起来很麻烦，就想要开发一个模型，像ChatGPT一样，只要向它提问，它就能回答对应的内部资料内容。

这件事不好做（要是好做，我估计都能做20个客户了），但为什么难做？因为当我们训练模型时，发现如果没有大模型的语言能力，训练出来的东西它不会说话。

后来我有一个结论，这个结论可能对，也可能不对。在目前阶段，一个垂直模型很难脱离大模型之外独立成型，小模型或垂直模型是依附大模型的一个产物，它仍然要有基于大模型的语言能力。今天的大模型是Large Language Model，本质上还是语言模型，垂直模型很难有这种语言能力（它可能有内核训练出来，目前我们的解决方案就是这么训练的）。所以，垂直模型一定是未来的大趋势，这是第一点。

第二，未来每一个在互联网向外输出内容的企业和个人，他们或许都会有模型。五六年前我看过一本书，讲人工智能算法的，说到了模型的概念，说未来是一个模型社会，每个人、每个企业都有模型。比如员工去公司面试，其实是员工的模型和这家公司的模型先进行了交互，觉得OK了，员工的肉身再去面试。我觉得这个设想是成立的。

像是在互联网上活跃的每个人，或者是一些消费者，都可能会形成各自的模型。今天的数字人背后，未来都会是一个小模型。我就在训练我的模型，训练好以后，我去抖音上，一边是我另一边是他，我们不停的对话，让他接受我的思想，让他越来越像我，他们也可以去学一些新东西，我觉得这是完全有可能的。

未来的大模型，包括百度的文心一言、阿里的通义千问、OpenAI的ChatGPT，它们已经云化了，我觉得大模型就是云。企业或个人有很多的数据，有的数据是私有的，无法向大模型去投喂。所以我觉得未来要出一些协议，什么样的数据是大模型“允许采集的”和“不允许采集的”，什么样的数据要通过加密算法、然后去脱敏、再去投喂给它（模型）等等，我觉得有非常多的空间可以做。但是我坚信的是，未来会有垂直模型，甚至个人会有模型。

（3）谈大模型之上的超级应用

高飞：我们还想探讨的是，如果说99%的应用都是基于ChatGPT开发的，那么这些应用是否还有成长的潜力？其实TikTok某种程度上来说，是基于移动平台之上长出来的一个应用，所以大模型未来是否会长出一个超级巨头出来？

陈炼：一定能。大模型本质上会让草根创业变得更难，它会形成更有优势的垄断。大模型依赖强大的数据、算力，这其实是好多公司无法达到的，所以它的垄断更容易。

蒋镒珍：有点难说。因为ChatGPT在我看来它是个工具，OpenAI自己可能也在苦恼，“大家跟我的工具聊天，我也赚不了多少钱”，所以在它内部已经看到了一些外围的应用，不管是感知上、信息获取、还是应用场景，ChatGPT实际上是很难全打通的，而这个权利是握在创业者手上的，所以硅谷的创业基本上都是在ChatGPT之上干点什么小事儿。

我也希望看到大模型之上，能让开发者在上面做应用，这件事迟早会发生。但要说这上面能不能长出一个巨大的应用，一个应用把什么事都干了，目前还看不太清楚，因为现在是百花齐放的状态。

刘大鸿：我觉得一定会的，原因很简单，今天的大模型一定会成为智能云，目前基于阿里云诞生的、用阿里云服务的公司有很多，美国很多公司都用亚马逊云科技，这很正常。

今天我们来看整个生态，OpenAI的月活已经达到10亿，我认为这不仅仅是它本身做得好，而是AI技术的突破，让获取AI能力的成本一下子降得非常低。所以巨头的敌人可能不是这些挑战者，而是到了某个时间一定会突然出现，然后巨头就会被替代掉或被遗忘掉。

我去拜访微软时，学到一个词叫“单位智能（Unit Intelligence）”，这个词是OpenAI创始人Sam Altman和LinkedIn联合创始人Reid Hoffman在一次访谈中提到的，当你获取单位智能的费用和资源是之前的千分之一时，你作为个人、企业愿意为智能付费的意愿增加一千倍的时候，你把这两个事情乘在一起，就是10的6次方（一百万倍），你要思考的是这个事情就在发生，即使在你的行业还没有发生，那么很快它就会发生。

当你是一个个人、一个产品团队、一个组织、一个公司或者整个国家，当你的手中有10的6次方的单位智能时，你可以想象这个世界会变成什么样？所以我认为在未来的1-2年，会看到有一个新东西出来，快速成长成为一个巨头，这是毋庸置疑的事情。

于千城：我认为一定是能的，原因有两个。第一，大模型不会跳出Gartner技术成熟度曲线，也就是会有一个泡沫期，大家都蜂拥而上，最后跌落低谷，那么最后坚持下来的一定成为真正的主宰者。

第二，这东西它现在毕竟还不是生产力，造工具的企业一定很难亲自把这个工具用到生产领域，因为它不懂生产，不能跟各行各业相结合，所以终究会有一个大巨头出来，把工具变成生产力，来推动社会发展。

高飞：我觉得很难。苹果是一个硬件公司，所以它对于开发太复杂的应用，其实没有那么大野心。而OpenAI是一个互联网公司，尤其是国内这些互联网公司做大模型，其实有很强的做应用的冲动，比如阿里有钉钉，腾讯有腾讯会议，所以巨头会不会把空间留出来，我要打个问号。我倒不是说不可能有巨头应用出现，而是，是否存在这样一个市场空间的问题。

（4）大模型值得让“大部分行业”都再做一遍

高飞：前一阵子，陆奇在奇绩创坛有个论断被刷屏了，他说大模型值得让所有行业都重新再做一遍，你们怎么看待这个问题？

刘大鸿：这对“大部分行业”应该是成立的，只是会有个先后顺序。数字经济领域一定是先开始，慢慢再延伸到制造业、电商、外贸等，我觉得不是每个公司都会去做大模型，但每个公司一定都会有自己的模型。

但再做一遍的方式是什么？ChatGPT出现之后，人机交互的方式发生了根本性变化（就像从诺基亚到iPhone一样），以后所有产品的交互方式都会是以Chat为主。

未来，所有行业交互的效率，也会从过去的复杂方式变为自动化、智能化，这会是所有行业变化的“点”，由于交互方式发生了变化，所以效率革命一定会推动所有行业再做一遍。

陈炼：现在的AI看上去很智能，但其实智力是很弱的，它是基于量变引起质变的、基于数据权重的一个随机智能算法产物，它其实并没有真实的思考能力。但如果有一天，AI真能达到人的主动性思考能力时，确实需要去按照人工智能的方式再做一遍。

【Part 3】大模型是不是有血型？

（1）论大模型的自我修养

高飞：接下来我们来探讨一个内在问题，我们会发现，跟大模型交流起来，它还挺有道德修养的，甚至有政治正确的敏感性，这是如何修炼出来的？

陈炼：主要看数据的基因和后天的培养。首先，当训练数据本身具有政治正确性的时候，那么这个模型就会表现出政治正确性。其次，用一些技术手段来增强模型的道德和政治正确性，比如在算法上加一些规则和约束，来避免大模型产生偏见和歧视性的文本。

（2）AI分不分本地人？

高飞：各国都在做大模型，道德规范都不一样，以后是否会进化出不同血型的大模型？就像我们各个民族一样，每个国家都有自己种族的大模型？

陈炼：我觉得不太会。大模型很像是一个操作系统，大家在使用Windows操作系统时，如果发现系统崩溃了，就提交一个报告上去，微软那边就修复系统的一个Bug。所以，用的人越来越多，提交的Bug也会越来越多，Windows打的补丁也越来越多，系统就会越来越完善。

同理，大模型在使用过程中，训练方也会用数据训练数据，但是它存在一个问题，就是不同国家、不同区域的人使用的大模型其实是被全球垄断的，全球的通用大模型其实只有那么几个，当全球人在用这些大模型的时候，只会在完善这些大模型，但是并不会衍生出不同血型的大模型。就像操作系统一样，全球也只有几个操作系统。

除非是垂直领域，每个领域都有自己的模型，肯定会随着当地使用人的习惯不同，训练数据的不同，而造就出不同的垂直模型。

蒋镒珍：如果是通用大模型，基本上是被顶部两三个玩家给垄断了。做应用的，肯定会挑通用能力更强的，弱一点就不会被选，生态也会督促顶部的几个模型存活下来，所以大模型不会有各国的血型。

刘大鸿：我觉得一定会。就像字典，全球有名的字典是有限的，但是用有限的字典写无限的文章的人太多了。所以最后一定会诞生出各种各样的、不同特征的大模型。

现阶段，我觉得文心一言、ChatGPT的回答不好玩，我们人类在聊天时是有非常丰富的情绪、情感、表情的，但是大模型现在还做不到，我觉得以后一定会出来，哪天我去训练一个会说人话的大模型出来。

于千城：我觉得一定会。第一，大模型不仅仅是一个生产力技术，它对社会的影响是革命性的，所以文化、政治、军事等方方面面都会受到影响。第二，人其实是喜欢当造物主的，好不容易造出一个硅基生命，自然也会想要把它做的更丰富，人类一定会朝这个方向努力。

高飞：插个题外话，大模型时代，巨头都在快马加鞭的布局，唯独腾讯没有动静，腾讯是不是掉队了？

刘大鸿：小马哥在网上有个讲话，说“我们不急于去造灯泡”，这就对应到之前业界有个比喻说“大模型像电力革命一样”，所以如果大模型是电厂，那么我们生产产品的公司就是造电器的。

腾讯现在为什么还不着急？我有次跟腾讯的一个核心工程师吃饭，听他讲公司内部在做混元大模型，以及在应用层面上的一些想法，听到后面我连饭都没心思吃了，就想着赶紧回去干活，因为我觉得，如果腾讯的产品推出，市场上很多产品就没有存在的价值了。所以我认为腾讯并没有闲着，而是会一步迈到应用产品。

（3）大模型时代下，创业者还能做什么

高飞：如果说未来中国有自己的大模型，国外有国外的大模型，那么国内与海外对大模型领域投资逻辑的本质差别在哪里？

于千城：我觉得国外公司从技术储备、到投资的远瞻性，要远远超乎我们的想象。国内很多都在说，美国主要把大模型放在C端，但是我相信他们在B端应该已经做了很多沉淀，只不过没有把它公布出来。

国内应该是有实力跟美国叫板，因为互联网红利见顶之后，大家还是有创新需求，AI正好给了大家这样一个机会，跟元宇宙技术结合起来，前途会比较清晰，所以每个公司都会在这上面发力，资本市场当然也不会落后。

所以我的观点是，现在也没法谈谁好谁坏，两个国家肯定都在发力。只不过我们对美国的认识可能不清晰，真实的差距到底多大，其实我们不清楚。

刘大鸿：国内在大模型领域的投资，相比于美国来看，我觉得还是差很远，完全不在一个量级上，它的创新速度以及产品迭代速度远超国内。我甚至感觉我们是给国外大模型做宣传的，国内媒体比较发达，事实上做的人还是非常少。

陈炼：国外可能更偏重长期的价值投资，不管是特斯拉，还是OpenAI，他们都是投资了10年8年才开始有回报。但国内可能更偏向于短期效益，两三年之内是不是能实现盈利，能不能有流水，有多少活跃用户，可能更偏向于这些。

所以现在的垂直大模型非常高效，因为它一训练出来立马就能见效，比如医疗模型搞一个大前端都能挣钱。

蒋镒珍：确实美国的创新能力很强，中国离人家的距离还很远，比如大模型这一波的投资。美国的好多投资你不用看什么回报，谁知道哪一天才能回来呢，它更大的野心很有可能很长远，我们没办法想那么远。

高飞：梦想总要有的，我们的生活也要继续，总要做点什么事情。如果从总要做点事情的角度，基于大模型这一代，你们接下来想干点啥？

于千城：对于我们初创公司而言，训练模型、微调模型这些路数基本上是不可能的，所以我们现在的主要工作，就是用本地知识库，把客户的数据变成本地的知识，辅助大模型来做垂直应用。

我们在夹缝当中，只能先让客户接触到这种大模型工具，哪怕它不够准确，但是类似于做市场教育，让大家都知道这个时代已经到来了。

蒋镒珍：我完全跟于总站在同一条战线上，因为咱们做大模型压根就没戏，如果代价不高的话，做微调还是敢调的。实际上，行业客户已经被AI浪潮的风吹到跃跃欲试，而且看到AI确实有很多用处，所以机会缝儿是有的，至于机会到底有多大，我们先冲进去再说，在垂直领域先深耕一下。

陈炼：我们虽然是小公司，但是我们有两台A100服务器，也训练出来了医生、律师等行业的垂直模型，部署了几家出版社，都已经商用。

但是我现在真正想做的产品是“谁是谁”，因为在大模型时代，AI可以克隆人的声音、克隆人的视频、产生很多垃圾信息，所以我们想把“真实的”和“AI的”做一个识别，到底谁是谁，这肯定是下一个会爆发的需求点。

刘大鸿：从去年开始，我们已经在尝试做个人助手，国外有一个对标产品叫“Pi”，我们做的是中国的Pi，只是我们比他们做的早一点。我们的产品叫“快秘书”，给每个人设计一个AI助手，同时也会给每个在网上输出内容和服务的个人做垂直模型，这个市场欢迎度比较高。

【嘉宾简介】

主持人：

高飞，知名媒体人，至顶科技CEO兼总编辑，中国轻工业信息中心智慧生活产业促进中心副主任，中国上市公司协会信息与数字化委委员。他长期致力于数字经济、数字化转型等方面的课题研究，参与撰写了《中国云计算产业发展白皮书》等多份权威报告。作为知名科技策展人，其参与策划的“世界智能大会”，是AI领域的首个国家级国际性会议。

对话嘉宾（排名不分先后顺序）：

蒋镒珍，多年互联网/AI经验，在Adobe, HP software负责过研发软件产品，目前在初创VitallyAI任职CTO。最近主要关注大模型：文生文，文生图以及多模态的实际垂直市场的应用。目前聚焦营销/市场领域的AIGC应用开发和服务。

于千城，宁夏云瑞致胜科技有限公司CEO，目前聚焦于AI大模型创业，致力于服务垂直行业中小企业客户。

陈炼，北京橙溪科技创始人，从事人工智能（大模型训练）、互联网(出版社等等)、虚拟3D（虚拟办公室）、区块链（公网Dapp，Layer2）等研发)。

刘大鸿，波特时空创始人。10亿级AI数据预处理经验，互联网科技领域连续创业者，分布式存储算法发明专利发明人。