就在人们还对马云突然现身阿里杭州园区津津乐道的时候,阿里突然被爆将与阿里巴巴合作为中国 iPhone 用户开发人工智能功能。
根据 The Information 的消息,有知情人士表示,苹果和阿里巴巴已经提交双方共同开发的中国版 AI 功能,正在获得中国监管部门备案的过程中,这表明双方合作已经取得了重大进展。
据报道,苹果从 2023 年就已经开始测试各类中国头部 AI 大厂开发的 AI 模型。去年,原本选定百度作为主要合作伙伴,但双方的合作并不顺利,百度为“Apple Intelligence”开发模型的进展未达苹果标准。但目前不清楚苹果是否是选用单一供应商,是否会完全放弃百度。
近几个月苹果开始考虑其他选项,对腾讯、字节跳动、阿里巴巴以及 DeepSeek 开发的模型进行评估。最终,阿里被苹果选中。
“当下阿里倒算得上最好的选择,甚至可能没有之一。”知乎大模型话题优秀答主刘延表示。“为什么是阿里,不是 DeepSeek ?”这是很多人在看到这个新闻后的第一反应。一些专家也对此进行了很多分析。
为什么是阿里?
用户优势
据报道,苹果的目标是找到一家能基于中国用户个人数据理解中国本土用户需求的中国合作伙伴。在评估各公司开发的 AI 模型性能时,苹果对它们理解用户意图并将用户实际手机使用情况融入生成回复的能力感到不满。
据悉,一位直接了解决策细节的知情人士称,作为电商巨头,阿里巴巴掌握的中国消费者个人数据比百度更多,比如用户的购物和支付习惯。阿里巴巴的 AI 模型就是基于这些数据集进行训练的,因此能帮助“苹果智能”为中国用户提供更个性化的服务。有接近阿里巴巴的人士透露,基于中国相关数据隐私安全法律法规,阿里巴巴不会与苹果共享其个性化数据集。
模型能力够强、开源社区认可
不管是云端还是端侧,阿里模型能力是足够强的。
Monica.im 产品合伙人张涛在其公众号(潜云思绪)中分享说,阿里的千问(Qwen)系列模型涵盖了各种各样的任务领域和尺寸,可以匹配 Apple Intelligence 对于人工智能技术需求。Qwen 模型的性能表现,比如 Qwen2.5 系列各模型的 benchmark 表现非常棒。站在大模型应用开发者的角度上,光是“刷榜”或提供不同尺寸的模型还不够,模型的周边能力也挺重要,比如 function call 支持;此外,Qwen 在多语言能力方面全球领先(甚至可以说是第一),并且在产品化对齐程度上表现也很优秀。
知乎大模型话题优秀答主段小草也指出,Qwen 一直都是国内 T1 阵营的模型,Qwen 系列模型中,除了旗舰模型闭源商用外,其余所有模型都在走开源路线。Qwen 的特点是开源模型多、全、强,和 DeepSeek V3/R1 开源的 671 B 超大模型不同,Qwen 主打全尺寸、全功能。小到手机也能运行的 1.5B,大到 110B,基本上覆盖了开源社区的绝大多数需求,因而在全球开源社区中影响力很大。
张涛还指出,Qwen 是类 Llama 架构,能很好与各种 Infra 对接,“我合理猜测,对于苹果工程师也容易对接。”
重要的是,Qwen 受到了真正开发者的认可。在 Hugging Face 的模型 trending 排行中,Qwen 有很高的关注度和下载量。Qwen 绝大部分开源模型是基于 Apache2.0 协议,意味着可以商用,姿态非常开放。
“非常多的研究工作都是以 Qwen 为基础模型开展的,可以说养活了一大帮 AI 专业的研究生和博士。”段小草提到,DeepSeek 推出 R1 时,为了验证大模型推理模式的有效性、方便开源社区进一步研究,主动蒸馏了一部分小模型,这些小模型就是基于 Qwen2.5 和 Llama 的,Qwen 和 Llama 也是目前开源最全面的两个主流模型。
“某种程度上,这次合作可以说是开源生态的全面胜利。产品实力的进化、社区反馈很重要。我看到的 Qwen 团队非常拥抱社区,有良好的社区互动,然后逐渐在全球技术社区形成影响力。”张涛表示,“开源做好了,能力做高了,并与主流生态有好的对接,是可以反哺商业化的。”
刘延则以自己体验为例说道,“我日常干活大体上是在 DeepSeek、Qwen Max/72B 以及 Gemini 2.0 之间切换使用,GPT 说中文人话的水平比这仨还是差了点。三个模型各有长处和局限性:DeepSeek 长文本生成容易回到自己的风格,Qwen 偶尔不太说人话,Gemini 快。”
他还表示,阿里的 Qwen 系列模型可能是能用在苹果手机端侧的“小”模型里最好的。由于 iPhone 的内存限制,大概就支持 1-3B 参数的模型端侧运行,甚至 Qwen2.5 里面,1.5B/3B 这些相对小模型,在经过 Deepseek 的蒸馏后,大部分场景也能说点人话,并且表现出还不错的交互能力(指令服从性)。“我怀疑,阿里这个模型在苹果手机上的表现可能比苹果自家的还要好点。”
云业务增加优势
“从支持力度来看,阿里背后有中国最大的云服务厂商阿里云,无论是通过阿里云做支持计算,还是由阿里云工程支持团队协作苹果云部署阿里模型,从商务、客户服务、技术支持等维度看,阿里云具备全面的团队支持。”张涛表示。
刘延也提到,阿里本身云业务也够强,能撑得起 iPhone 存量用户的并发需求和数据本地化政策,在云端还能接入不同家的模型,这块对云服务能力要求更高。
国内其他云厂商,各有长短板。“火山引擎(字节跳动)、腾讯现阶段云服务能力不错,但自有模型能力一般,也没有端侧小模型。百度问题也一样,云服务能力还不错,但自有模型起了个大早赶了个晚集。DeepSeek V3/R1 是个好模型,但 DeepSeek 不是个好云服务商,毕竟 DeepSeek 也没有专门搞云的团队。”刘延分析道。
此外,刘延表示,云服务商可能也要承担一部分模型训练的任务。从长期来看,端侧模型想要实现更好的功能,也需要结合用户数据做本地化训练,而这部分数据也不可能出境。“阿里云在训练小模型上的经验,应该算得上世界顶级。所以,综合模型产品、云服务能力来看,阿里确实是苹果当下最好的选择,可能没有之一。”
大热的 DeepSeek“输”在哪里?
报道还提到,苹果已经测试了 DeepSeek 的模型,但决定不采用,原因是苹果认为 DeepSeek 团队缺乏支持如苹果公司这样的大型客户的人力和经验。相关专家分析,DeepSeek 在自身人力配置、大模型等方面还是存在一些“短板”。
难以服务好苹果架构
张涛直言,服务苹果的架构,DeepSeek 还不“够格”。“我想表达的都不是针对 DeepSeek 的贬义,而是说术业有专攻。”张涛强调。
他分析道,要服务苹果的话,在云 Infra 上,DeepSeek 没有自己的云,它支撑自己 App 的推理都已经很痛苦了,肯定不可能再给苹果搞一套。但如果用苹果自己的云,那就需要把自己的 Infra 整体搬过去,在那边再建设一次。以 DeepSeek 现在的人员规模和配置来说,做这么强的 to B 支持服务,显然也不是这个团队擅长或者当下愿意干的事情,所以苹果云方案也不是 DeepSeek 当下能支持的。
“但阿里的研究团队应该能腾得出人手去支持苹果。”张涛说道。
段小草也指出,DeepSeek 现在的情况是自家官方服务器一直繁忙,API 都暂停充值了,基本上是没什么余力的,更不要说保障服务苹果这种超大客户。他猜测,DeepSeek 对 B 端业务不怎么有兴趣,因为以部署、运维为主的 B 端业务纯属脏活累活。苹果更不可能自己直接部署使用 DeepSeek 的开源模型。因此,苹果需要的不仅仅是一个模型,更是一个合作伙伴。
此外,DeepSeek 也难以匹配苹果独特的架构。去年,苹果发布 Apple Intelligence 时特别强调“隐私第一”,要求非常高。在张涛看来,如果要匹配苹果的架构,光是把 Infra 搬过去肯定不行,还要围绕它的 Private Cloud Compute 架构去做技术改造。

另外,张涛分析,端云混合部署意味着同一个能力模型需要多尺寸。比如要在 Private Cloud Compute 架构里跑很大 size 的模型,但在端侧上可能跑的是小模型,甚至针对不同的端,比如 在不同的 iPhone 型号或者在 MacBook、iMac、iPad 等不同端,可能跑的都是不同尺寸的模型。
在他看来,“总的来说,从云 Infra 的角度、从苹果对隐私的要求、包括端云混合部署多尺寸的要求等等,我个人觉得都不是 DeepSeek 擅长或者说他们当下愿意 / 应该做的事情。对于当下的 DeepSeek 来说,或许专心攻关、一路向前探索 AGI、ASI 才是最重要的。”
模型只在某个方面突出
“虽然 DeepSeek 厉害,但是在支持广度方面,目前可能做得没那么全面,比如模型类型。”张涛表示。
另外,从产品化“成熟”度方面看(这里的成熟是一个相对概念),模型要真正用到大规模应用场景里,需要考虑的事情会很多,比如合规、用户喜好和常见场景等。因此,除了模型本身强大以外,也需要大量地从各方面做大量的后训练,也就是所谓的对齐,确保能够适应现实商用场景。
“我自己在使用 V3 和 R1 的过程会发现,DeepSeek 专注于前沿的探索创新,但在现实商用方向的对齐方面是没有花过多的精力。”张涛说道,“总的来说,AI 行业很宽广,DeepSeek 的突破和创新是在某一个特定的方向。”
段小草也指出, 最新的 Qwen2.5-Max 其实是赢过 DeepSeek V3 的。
大家现在对 DeepSeek 体验良好,主要是在于推理模型 R1。但 o1/R1 这类推理模型最大的问题就在于输出太长、太慢了,每次都要先输出思维过程,然后再组织语言进行回答,内容冗余很多,所以更适合“短输入、长输出”的场景。
另外,o1/R1 这些推理模型相比于普通的对话模型来说贵好几倍,输出长 + 单价贵,二者叠加在一起就显得性价比不高。而 Qwen2.5/DeepSeek V3 这类对话模型,更适用于“长输入、短输出”的场景,比如总结一篇文章主要内容、对多个信源进行总结等,也许更适合用户在 iPhone 手机上的日常场景。
Apple Intelligence 何时在中国落地
Apple Intelligence 自去年 6 月亮相以来,已经过去了整整 8 个月,目前已经在海外部分地区上线,但反响平平。苹果曾称会在 2025 年上线支持汉语。
Apple Intelligence 入华几经波折,段小草此前曾分析,Apple Intelligence 没有入华,跟和谁合作的关系并不大,而是在 Apple Intelligence 自身的部署方式上。
“不论是跟百度、字节、腾讯哪家合作,苹果都不可能把第三方作为唯一 AI 服务而放弃自身的 AI。我分析主要还是有两种可能性:第一是 Apple Intelligence 现在只支持英文,其他所有的语言都排到 2025 年去了,汉语、法语、日语、西班牙语等本来也都是 2025 年才会支持。第二则是国内的监管限制,按照要求生成式 AI 算法需要备案,苹果还没有完成这样的备案。”
目前,包括华为、荣耀、OPPO、魅族、努比亚在内的众多国产手机均已官宣接入 DeepSeek-R1。vivo 方面据媒体报道确认接入,具体时间和细节有待官方公布。而小米尚未正式宣布与 DeepSeek 的合作计划,但此前有报道称,雷军以高薪招募 DeepSeek“天才少女”罗福莉,负责小米 AI 实验室的大模型团队,官方尚未对此作出回应。无论如何,对于苹果而言,与阿里的合作必须加快脚步,否则在中国的市场竞争中将会更加被动。(转自InfoQ)
服务器扛不住
果真还得是米,又高薪挖墙脚