2025年初,中国国内目前最活跃的AI投资机构之一的锦秋基金,组织了一场硅谷的 Scale With AI 活动。
5天4晚里,OpenAI、xAI 、Anthropic、Google、Meta、Perplexity、Luma、Runway 等关键AI公司以及很多硅谷的投资机构集中分享了硅谷AI的最新进展,以及他们对2025趋势的很多预测和判断。
作为这个活动背后的攒局者,锦秋基金不仅投资了北美的一些活跃的AI基金,与全球AI市场建立连接,也特别推出了Soil种子计划,以激进的、快速灵活决策的方式支持AI领域的早期创业者。过去的2024年,锦秋频繁出手了AI达人营销平台Aha Lab、AI内容平台造梦次元等诸多项目。
以下是本次硅谷行整理出的关于AI进展的二十五条重要认知,共分为大模型、视频模型、AI应用以及具身智能四个部分。
关于大模型:Scaling law是否达到瓶颈以及硅谷创新的来源1.对 LLM 来说,Pre-training 的时代已基本结束了,但 post-training 还有很多机会。此外,在 Pre-training 投入少的原因,更多在于资源有限,而做 Post-training 的边际效益会更高,所以,Post-training还有很多机会。
2.先有 Pre-training,才有 Post-training 中的 RL,模型得有基础能力,RL 才能有的放矢。RL 不改变模型的智力,更多是思考模式。相比来说,Pre-training 是 imitation,只能做到模仿,而RL 是创造,可以做不同的事。
3、一些可能明年成为共识的预判。比如Model 架构可能变化;闭源和开源差距会大幅缩小;关于合成数据,大模型生成数据然后训练小模型是可行的,反过来比较难。合成数据和真实数据的区别主要是质量问题。也可以用各类数据拼凑合成,效果也很好。pretraining 阶段可用,因为对数据质量要求不高。另外,每家拼凑的方式都不一样,用更大模型生成训练小模型是可以的,用小的模型训练大模型的话,近一年可能好点。而本质都是数据来源问题。
4.Post training 团队建设,理论上5 人足够(不一定全职)。比如一人搭建 pipeline(infrastructure),一人管数据(数据效果),一人负责模型本身 SFT,一人负责产品对模型编排做判断,收集用户数据等。
5. 关于硅谷创新的秘密由来,其中一个重要因素就是他们的公司很容易形成一种扁平的组织文化。像openAI,就并没有所谓特定的decision maker,每个人都很自主自由,团队之间的合作也很自由。而老牌的谷歌也在悄悄裁撤中间层,让很多曾经的manager转一线。
关于视频模型: Scaling Law的瓶颈还很早6、视频生成还处于 GPT1 和 2 的时间点。现在视频水平接近 SD1.4 的版本,未来视频会有和商用性能差不多的开源版本。当前的难点是数据集,视频因为版权等问题没有那么大的公用数据集,每一家如何获取、处理、清洗数据会产生很多不同,导致模型能力不同,开源版本的难度也不同。
7.DiT 方案下一个比较难的点在于如何提升物理规律的遵循,而不只是统计概率。视频生成的效率是卡点。目前要在高端显卡上跑挺久,是商业化的障碍,也是学术界在探讨的方向。类似 LLM 虽然模型迭代速度在放缓,但应用没有放缓。从产品角度,只做文生视频不是一个好的方向,相关的偏剪辑、创意的产品,会层出不穷,所以短期内不会有瓶颈。
8.会有 1~2 年才能达到 DiT 技术路线的饱和。DiT 路线很多可以优化的地方。更高效的模型架构,是非常重要的。以 LLM 为例,一开始大家都在往大了做,后面发现加 MOE 和优化数据分布后,可以不用那么大的模型去做。需要投入更多研究,一味 scale up DiT 非常不高效。视频数据如果把 YouTube、TikTok 都算上,数量非常大,不可能都用于模型训练。
9.视频的 scaling law,在一定范围内有,但远达不到 llm 的级别。现在最大级别的模型参数也就是 30b。30b 以内证明是有效的;但 300b 这个量级,就没有成功案例。现在做法中,不同主要是在数据上、包括数据配比,其他没有大不同。
10.Sora 刚出来大家都认为会收敛到 DiT,但实际上还有很多技术路径在做,例如 based on GAN 的路径,以及 AutoRegressive 的实时生成,比如最近很火的项目 Oasis,还有把 CG 和 CV 结合去实现更好的一致性和控制。每一家都有不同的选择,未来面向不同场景选择不同的技术栈会是一个趋势。
11.长视频生成提速的技术方案,能看到 DiT 能力极限在哪,模型越大、数据越好,生成的清晰度更高、时间更长、成功率更高。DiT 模型能 scale 到多大,目前没有答案。如果到一定尺寸出现瓶颈,可能会有新的模型架构出现。从算法角度,DiT 做出一个新的推理算法,来支持快速。比较难的是怎么在训练的时候把这些加上。
12.视频模态的训练数据其实还有很多,而且怎么样高效地选择出高质量数据比较重要。数量取决于对版权的理解。但算力同样是瓶颈,即便有那么多数据,也不一定有算力去做,尤其是高清的数据。有时候需要基于手头有的算力去反推需要的高质量数据集。高质量数据一直都是缺的,但即便有数据,很大的问题是大家不知道什么样的图像描述是对的,图像描述要有哪些关键词。
13.视频生成的真实度主要靠基模能力,美学提升主要靠 post training阶段,比如海螺就大量用影视数据。视觉模态可能不是更好的通向 AGI 的最好的模态,因为文字是通往智能的捷径,而视频和文字之间的效率差距是几百倍。
14.多模态模型还在很早期阶段。给前 1 秒视频 predict 后面 5 秒已经很难了,后面加入 text 可能会更难。理论上视频和文字一起训是最好的,但是整体做起来是很难的。多模态目前不能提升智力,未来也许是可以的。
关于AI 应用:硅谷的趋势和国内不太一样15.硅谷 VC 倾向于认为 2025 年是有应用投资的大机会。他们投资 AI 产品的标准之一:最好只做一个方向,让竞品很难复制。也需要有一些网络效应:要么是难以复制的洞察力;要么是难以复制的技术 Edge;要么是他人无法获得的垄断资本。否则很难称之为创业,更像是一门生意。而且在美国,基本没有 killer apps for everyone。大家习惯于在不同场景中使用不同功能的 App,关键是让用户体验尽可能的无障碍。
16、硅谷 VC 认为AI产品公司是新物种,和之前的SaaS很不一样,找到了 pmf,它的 revenue booming 是非常快的,真正 value creation before hype 是在 seed 阶段;大模型很注重预训练,应用公司更注重 reasoning。每个行业有固定的看问题的方式和方法,新出现的 AI Agent 是在 LLM 的基础上加入了 Cognitive Architecture。
17.VC 里的小众观点是可以有条件考虑投资中国创业者。原因是新一代中国创始人很有活力,很有能力做很好的生意模式。但前提是 base 在美国。中国及中国创业者在做很多新的尝试,但是国际投资人不了解,所以也是一个价值洼点。
18.硅谷的 VC 都在想办法建立自己的投资策略。Soma Capital的策略是建联最优秀的人,让最优秀的人介绍他的朋友,创建 Life Long Friendship。在过程中 inspire、support、connect 这些人;建立全景地图,包括市场细分和项目 mapping,想做数据 Driven 的投资。会从 Seed 投资到 C 轮,观测成功/失败样本;Leonis Capital是研究驱动的风险投资基金,主要是 First Check。OldFriendship Capital则是Work first,invest later,会和 founder 先一起工作,打客户访谈,确定一些访谈 guideline,一起搞清楚产品的问题,类似咨询工作。投中国项目,在工作中可以判断中国 founder 是否有机会能够和 US Customer 一起工作。
19.Storm Venture喜欢 Unlocking Growth,比较喜欢 A 轮有 PMF 的公司,他们通常获得了 1-2M 的收入,然后去判断是否存在 Unlocking growth 支撑他们涨到 20M。Inference venture认为壁垒应建立在人际关系和领域知识。
20.OpenAI研究员创办的 Leonis Capital 有 几 个关于 2025 年的AI预测。比如会有一款 AI 编程的应用走红;比如模型提供商开始控制成本,创业者需要去选择 model/agent 创造一个独特供给;数据中心会造成电力冲击,可能存在新架构重新;新的 framework,模型变小;Multi agent 会变得更加主流。
21 AI Coding 公司模型训练的可能思路,一开始会用模型公司更好的 API来取得更好的效果,即使成本更高,在积累客户使用数据之后,不断地在小场景训自己的小模型,从而不断替换部分 API 场景,以更低成本取得更好的效果。
22. AI Coding 的一个重要趋势是使用推理增强技术,类似于 o3 或 o1 方法。方法可以显著提高代码代理的整体效率。虽然它目前涉及高昂的成本(多 10~100 倍),但它可以将错误率降低一半甚至四分之一。随着语言模型的发展,这些成本预计将迅速下降,这可能使这种方法成为一种常见的技术路线。
关于具身智能:完全具备人类泛化能力的机器人,在我们这代可能无法实现23:硅谷的一些人认为,具身机器人尚未迎来类似Chatgpt的时刻,一个核心原因在于,机器人需要在物理世界中完成任务,而不仅仅是通过虚拟语言生成文本。机器人智能的突破需要解决具身智能的核心问题,即如何在动态、复杂的物理环境中完成任务。机器人的关键时刻需要满足通用性:能够适应不同任务和环境;可靠性:在真实世界中具有较高的成功率;可扩展性:能通过数据和任务不断迭代和优化等几个条件。
24:机器人数据闭环难以实现是因为它们缺乏类似ImageNet这样的标志性数据集,导致研究难以形成统一的评估标准。另外,数据采集的成本高昂,尤其是涉及真实世界的交互数据。例如,采集触觉、视觉、动力学等多模态数据需要复杂的硬件和环境支持。仿真器被认为是解决数据闭环问题的一种重要工具,但仿真与真实世界之间的“模拟-真实差距(sim-to-real gap)”仍然显著。
25:具身智能面临通用模型与特定任务模型的冲突。通用模型需要具备强大的泛化能力,能够适应多样化的任务和环境;但这通常需要大量的数据和计算资源。特定任务模型更容易实现商业化,但其能力受限,难以扩展到其他领域。未来的机器人智能需要在通用性和专用性之间找到平衡。例如,通过模块化设计,让通用模型成为基础,再通过特定任务的微调实现快速适配。