去年获得最多精神养分的创业故事,来自 Dify 创始人张路宇。
第一次见到他是在 2023 年「西溪论道」活动上,现场一众星光熠熠的名字中,张路宇三个字并不起眼。2024 年再次见到,Dify 已经是另一个故事了——一位没有光鲜背景的创业者,愣是在所有人都问商业模式的质疑声中,做出了全球最成功的 AI 开源产品之一。
一年的时间里在这家公司上发生的,比如意外在「因循守旧、易守难攻」的日本市场大受欢迎等故事,让我进一步理解「创业」。多的是意外,更需要运气,最终是要有本事在持续变化与事与愿违中摸出一条道路。
现在,相似的故事发生在另一位备受关注的创业者——Manus.im 肖弘和他的团队身上。
4 个月前,肖弘提过一个困惑,「团队擅长从 0 到 1,抓机会的能力很强,一旦开始 1 到 N,状态就没有那么好」。
在他过往的经历中,创业项目大都获得了相对稳定、可观的营收,上一家公司也被成功收购。2023 年,他的新公司「蝴蝶效应」更是以一款浏览器插件 Monica.im,在百模大战的 AI 叙事中错位竞争,成为增长最快、产品体验极佳的 AI 应用之一。看上去,他是一路很顺的创业者。做到这些事情,也才 32 岁。
但实际上,他并没有太多爽感。在肖弘看来,所谓「连续退出创业者」、所谓不断从 0 到 1 的爽感,像是围城——从 0 到 1 抓机会的能力很强、很爽,但是反过来,也担心会不会又需要再来一次。
2024 年,行业人士认为,像 Monica.im 这样带有记忆功能的 AI 助手,会面临来自比如豆包这样的强劲对手的压力,做起来并不会像 2023 年那样容易。Monica.im 有一个很好的从 0 到 1,但未必能冲击 1 到 N。
而他之所以会困惑,也是因为「团队接下来真的要做更难的事情、天花板更高的事情」,探索能够跨越 1 到 N 的事情。
更早之前,很多关注 Monica.im 的声音都假定这件「更难、天花板更高的事」是指传了很久、但团队迟迟未发布的 AI 浏览器。
现在看,确实,猜错了。
这段更难的探索其实是:放弃已经达到发布状态的AI浏览器、寻找下一个「ChatGPT 时刻」的 AI 产品、找到了通用型 agent 这个目标、做出了最新发布的 Manus.im。
Manus 是什么程度的创新、未来能做到什么水平,现在已经是一聊就炸了的话题。但值得看的,依旧是在「事与愿违」中找到的方向和找到方向的过程。Manus.im 未必就能让这支团队做成 1 到 N 的事情,甚至未必会复刻 Monica.im 的势头,但就像这家公司的名字——「蝴蝶效应」,许多小的动作和决定无意间对未来竟有深远的影响,「Connect the Dots」,明天的路会藏在今天的经历里。
01 Manus 的独特产品体验,源自做「AI 浏览器」的教训去年中下旬以来,「蝴蝶效应」团队做 AI 浏览器成为行业「半公开」的秘密。正式对外亮相的产品,是引发失控般关注度的 Manus。
如果你亲自上手体验过 Manus,或者看过演示视频,你会感觉到它和聊天机器人或一些类 agent 应用相比,有一个明显的不同:Manus 可以异步、并行执行任务。
当你打开比如豆包、Kimi 或者类 Computer Use 等应用,向它发一个问题,你要等它回复完。否则在它回复或者做任务的过程中跟它说话,上一段回复/任务就中断了,你和它只能是 A-B-A-B 接力式的对话。
但是,在 Manus.im 里,尽管看着还是聊天机器人的产品形态,你却可以提出比如 20 个问题让它同步执行任务。一旁的你可以在电脑上做其他任何事情,看视频、写文档、打游戏等等,都不耽误它工作。一旦这些任务有完成的或者执行过程遇到问题,Manus 可以通知你。如果在执行任务中途,你看到它的思考出现了偏差,也可以随时在对话框补充提示词,它会带着新的上下文接着思考和执行任务。
体验是异步的、可以并行的,确实像有了一支可以帮你干活的真人实习生团队。
事实上,Manus 对异步体验的产品架构设计,源自团队在上一个未公开的产品——AI 浏览器中学到的一课。同时这也是团队投入了很大精力、但在去年 10 月决定终止做浏览器的原因。

The Browser Company 于 2024 年 10 月 25 日宣布停止对 Arc 浏览器的新功能开发,决定将资源转移到一款新浏览器 Dia 上,旨在打造一个更简洁、更易用的 AI 浏览器。|来源:Arc 官网
「在 AI 浏览器里,AI 在不断打断用户。」因为它是为单用户设计的场景,AI 用了,你就用不了了,当 AI 开始工作,你只能看着 AI 工作,很难上手。看着 AI 抢走了你的鼠标、电脑,你不仅不敢抢过来,而且还怕一不小心碰到键盘、鼠标导致它的整个流程崩掉需要再来一次。
这让团队做出两个判断:
直接用电脑去做 Computer Use,短时间内不太可行。
AI 应该用浏览器,但不是在你的浏览器里用,它应该有自己的浏览器,这个浏览器最好在云端,最后把结果反馈给你。
在和腾讯科技张小珺的采访对话中,肖弘提到团队在总结从 Jasper 到 ChatGPT 到 Monica 到 Cursor 到 Devin 的产品形态时,发现「人类程序员」Devin 就很符合这个异步体验的架构。 它不像用 Windsurf 时,有时要让你确认你的电脑要不要装这个库;或者它执行一个命令行操作,让你填 yes or no,因为它可能真会把你的电脑搞坏,或者是某个东西冲突——它让你填「yes」才能到执行下一步,但要甩锅。 所以在 Manus 团队看来,「Chatbot 应该在云上有个电脑,把它写的代码、要通过浏览器查的东西都在那台电脑上执行。因为是虚拟服务器,坏了无所谓,可以再来一台。它甚至可以在当前任务执行完之后释放掉那个服务器。」 值得注意的是,相比 Devin 选择了垂直领域、硬核的工程师,Manus 团队则选择了通用型、消费级的 AI 助手,有 Web,也会有 App。它是一个可以根据指令,调用工具、完成与工作与生活中的各类任务的一款通用型 AI 助手,未来也会以一个消费级可负担得起的价格交付任务结果。 02 Less Structure,More Intelligence 有了明确的思路和目标,下一步就是实现这个想法。Manus 到底是怎么做到的? 在其产品合伙人张涛看来,这需要给大模型配一台电脑,同时也给它配系统权限(接入代码仓库、专业数据查询网站等私有 API),并给予一定的培训。 这样一来,AI 可以自己用这台电脑打开浏览器,做动作去调度工具,再根据工具产生的反馈观察它的动作对真实世界造成的影响,再思考下一步,再做动作,再观察……这是 AI 在探索和调研中完成任务的过程。期间,Manus 也会在你的「调教」下越来越懂你的要求,未来即便你没有清晰定义需求,它也可以根据一个个任务中沉淀下来的知识「揣摩圣意」。






在恰好的时间发现模型能力达到了可以做 agent 的程度,而不一定非要等一个像 Operator 一样的端到端大模型出来;
也恰好发现了问题出在对齐上;
也恰好做过聊天机器人延展出来的所有功能和 AI 浏览器;
同时因为一直在所谓「套壳」做大模型应用产品所以对 LLM 有敏锐的感知;
「蝴蝶效应」团队达成了在当下做出这样一款通用 agent 的全部要素,所以现在有了完成度相对行业比较高的通用 agent。 在被问及要做 Manus 的决定性瞬间是什么时,Peak 还原了更多的细节,他表示,「创业其实没有『干净的』pivot」,这一切是连贯的、没有明确界限的。 「在做一款产品的时候,也会频繁关注外界的情况。」当时有几件事,一是做浏览器的时候,做过端侧模型,后来发现浏览器需要的场景非常非常宽,有不同的 feature,做的过程发现了基座模型变强的速度在加快,强到它跟 agent 之间的差距可能是一个 alignment 问题。尽管可能外界觉得好像大语言模型已经要逐渐收敛、撞墙。 同期,外界也在发生变化。去年年初 Cursor 开始火,然后是 Windsurf 和 Devin。这背后对应同一个脉络,agent 在编程领域火了,火的途径逐级递进。Cursor 是程序员的一个 copilot,提升编程效率,从 Windsurf 开始逐渐有些自动化的流程进来,让你在本机有更强的自动化能力,Devin 又达到了自动化新高度。 VC 的动向也是一致的,比如在去年和前年,YC 投了两类公司,一是云端的 Browser,比如 Browser base;第二类是类似于 e2b 这种轻量级的 AI Sandbox 虚拟机这些东西。 这说明「模型的基建在迅速成熟,Infra 的基建也在迅速成熟,再加上看见外界产品逐渐有更多的接受度,我们就觉得这是一个值得 all in 的方向。这是一个非常渐进的、平滑的过程,再加上做浏览器时的积累比如 chromium 那些基建可以无缝迁移过来,这也是为什么我们敢在云端搞浏览器」。 总结来说,在所谓「套壳」中对需求和模型的敏锐感知和经验积累,共同造就了 Manus。Monica 的很多场景需要做模型后训练,同时在AI浏览器的实践中强化了最重要的一课「less structure、more intelligence」,发现模型能力达到了做 agent,问题在于对齐。接着就是 Manus 飞速进化的 3 个月。 此前,「蝴蝶效应」团队一度被质疑「套壳」的价值何在,其在不自研大模型的情况下,通过整合现有大模型做出了 Monica,把聊天、搜索、阅读、写作、翻译等功能整合在一起,也通过一个个接 API 的方式集成了很多任务执行的场景,去年底用户量达千万。 现在,当豆包、夸克、元宝都大力推广各自的 Monica 类产品,当一个小团队又把现有技术利用起来做出第一个通用消费级 agent 时,是时候该重新理解「壳」了。 「套壳」以及「壳」究竟是什么? 在肖弘看来,所有突破都是模型带来的,基本上是模型先驱动、模型先行。壳是要把模型技术上的创新点,以一个用户可感知的方式展示出来,把模型创新能力封装成用户最能感知的样子。 从这个定义出发,DeepSeek App(包括思维链的展示)是 DeepSeek-R1 的壳,Cursor 是 Anthropic Sonnet 3.5 的壳,Perplexity 是 GPT-4 的壳,ChatGPT 是 InstructGPT 的壳。 随着模型能力在快速进化,「那个壳」也需要进化。每一代模型能力进化之后,甚至不一定是原厂,是一个第三方厂商把它的用户可感知价值给呈现出来。就像 Cursor 把 Claude 3.5 Sonnet 的用户可感知的价值。 3 月 5 日,在 Monica.im 发布两周年的时间点,为什么是这几十个人做出了超过各类 Deep Research 和 OpenAI Operator 的产品体验,答案就在对壳的理解和实践里。 如何做出新的、可以做 agent 的模型下最好的壳? 作为 Manus 的建造者,张涛认为,「从后台去看它整个的架构,我们看到每个地方都有大量的未完成的工作要去做,而那些地方每一个地方都是决胜的关键,都是让产品面都不一样的地方。」 在团队看来,最重要的优势是创新速度(pace of Innovation),无论是应用还是模型,现在都到了一个相对饱和的状态,真正到最后的核心能力唯有一个,就是跑得快,尽管「数据飞轮」「网络效应」这些东西还未被验证有没有。 「在一个全新的领域里,一切未定,一切未知,最重要的就是创新速度,拼的是在各种各样的方向上探索、试错,快速找到正确的路径。」而 Manus 团队从管理理念、组织架构、产业流程上,足够灵活。当新机会出现时,能在有限的资源里能够贯通整个公司从上下所有的资源,并且极高的决策速度,并适应犯错的反馈。