【大算投】AI手机的新趋势:"AI读屏"功能能否引领新的消费潮流?

大算投 2024-10-30 15:46:32

经过一年多的宣传推广,AI手机在2024年终于取代了传统智能手机,成为市场的新宠。

今年,主流手机品牌纷纷在宣传上转向AI手机,连苹果也与OpenAI合作,高调宣布进入AI领域。

尽管如此,许多消费者仍然不清楚AI手机与传统智能手机的区别。

今年大算投观察到最直观的AI功能是“智能读屏”:

手机能够像人一样识别屏幕内容,并按照人类的逻辑完成线上购物、社交媒体互动等任务。

与传统智能手机中的AI相比:

这种AI展现出了更明显的“思维链条”,处理逻辑更加复杂。

与过去智能手机的功能设计不同:

现在,手机厂商将“智能读屏”的后台执行逻辑直接展示在了手机屏幕上。

对普通消费者而言,AI的自动化能力首次变得直观可见,带来了强烈的视觉体验。

‍那么,这样的“读屏术”在技术上是如何实现的?

01

微软与谷歌过招,端侧AI雏形浮现

在大型AI模型的激烈竞争中,微软和谷歌的对决成为了焦点,AI手机的“读屏术”正是在这样的竞争中逐渐成熟。

2023年2月8日,微软推出了New Bing,这是微软与OpenAI合作后,利用生成式AI技术对搜索引擎的一次新挑战。New Bing在ChatGPT的支持下,迅速获得了市场的关注,也让谷歌感到了压力。

面对这个被视为ChatGPT版的New Bing,谷歌推出了自己的Bard。Bard得到了谷歌早在2021年就发布的LaMDA的支持,LaMDA同样基于Transformer架构,当时还只是一个实验性的聊天机器人。

这是谷歌和微软在生成式AI领域的首次正面竞争,双方的这次对决,为搜索引擎这一传统互联网产品带来了新的变革。

在生成式AI的早期阶段,其对终端设备的影响尚未显现。然而,随着微软Copilot的推出,情况发生了变化。

2023年3月16日,微软宣布为Microsoft 365应用引入Copilot服务,将生成式AI技术与办公软件结合,使得内容生成的魔力成为提升生产力的一部分。这一举措在企业办公软件领域掀起了一股新潮流,标志着大模型技术开始在这一领域占据一席之地。

为了在生成式AI技术模式下打造杀手级应用,谷歌和微软都动用了各自的生态系统——Windows和安卓,全面向大模型技术开放。

随后,两大科技巨头的竞争开始向终端设备领域延伸。经过大约半年的试错和优化,谷歌和微软都在终端设备上推出了各自的“关键作品”。

谷歌在2023年10月发布的Pixel 8系列手机上推出了名为Circle to Search的功能。这项功能允许用户通过在手机屏幕上圈出图片中的产品,谷歌AI便能自动搜索并提供该产品的相关信息和来源。

这一创新功能后来也被三星采用,并作为Galaxy AI的主打功能进行宣传推广,进一步证明了AI技术在终端设备上的应用潜力和市场影响力。

在谷歌推出Circle to Search功能之前,Bard经历了一次重要的升级。这次升级使得Bard能够从Gmail、Docs、谷歌地图、YouTube等多个应用中提取和总结信息。谷歌开始利用个人本地知识库进行深度检索,也就是所谓的RAG技术,从而为用户提供个性化的出行建议和日程管理等助理功能。

Circle to Search功能继承了Bard的这些能力,允许用户通过在屏幕上圈选图片中的产品,直接搜索相关产品信息和来源。

与此同时,微软在2024年5月20日的AI PC发布会上推出了Recall功能。这项功能借助微软Copilot的技术支持,使用户能够根据记忆点或时间线,快速回到电脑之前显示的特定内容。这标志着微软在提升用户交互体验方面迈出了重要一步。

实际上,除了这两位AI大佬外,当初为了拿下苹果的大模型订单并获得新一轮融资,OpenAI发布了GPT-4o,并秀了一波视觉识别的功能。

通过手机摄像头,让GPT-4o解写在纸上的数学题,甚至识别出现在镜头前用户的情绪。

检索增强生成(RAG)和包括语言、视觉在内的多模态大模型技术的成熟,以及大模型在端侧的下沉和应用,让AI读屏功能在手机上出现成了顺理成章。

02

AI读屏:工作流概览

在2024年,AI读屏功能正迅速成为手机行业的新标准。从上周手机行业密集的发布会中,大算投们可以看到这一趋势:

华为在鸿蒙系统的发布会上推出了类似于谷歌Circle to Search的小艺圈选功能。荣耀则在系统更新中展示了“一句话点咖啡”的便捷功能。OPPO在Find X8系列的发布会上,直接推出了「一键问屏」功能。

尽管荣耀在发布会上请来了沈腾作为AI大使,并以“AI就是一句话的事儿”为主题进行广告宣传,但并未给这一功能一个明确的名称,如「AI读屏」或「一键问屏」。然而,荣耀CEO赵明在发布会上详细解释了「AI读屏」功能的工作流程,让公众对这一创新技术有了更清晰的认识。

在赵明的介绍中,AI读屏的工作流可以分为三步(以“帮大算投点杯喝的吧,大算投有些困了”语音指令为例):

第一步,模糊意图理解。

手机内置的智能体将语音指令进行拆分理解,分析用户意图是“困了”想点杯解困的“喝的”,筛选出可能选项(咖啡、绿茶、凉茶等)。

第二步,复杂任务规划。

首先智能体根据手机时间信息、定位信息,识别出最终配送地址;

然后智能体根据手机已有的本地个人知识库中收集到的你的日常饮食习惯,得出你希望点单的咖啡的品牌、甜度、是否加冰等信息(如果是新手机,这一步会卡壳,就需要用户手动点选);

最终智能体确认具体的点单信息并自动填充配送地址。

第三步,任务自动执行。

首先智能体识别出手机屏幕上的本地生活服务APP(例如美团),并搜索咖啡品牌(例如瑞幸);

其次识别并理解屏幕上的关键信息,进入外卖点单页面(例如瑞幸的幸运送);

然后根据已经规划出的用户点单内容(例如大杯少冰正常糖拿铁),在屏幕上一步一步进行类人的点选操作;

最后进入到结算页面,用户接管,由用户并选择是否用优惠券、是否确认下单。

如果说ChatGPT在全球形成的热潮让大家意识到了生成式AI、大模型的颠覆性,那么作为一个更聪明的聊天机器人,它首先带来的是又一次交互模式的改变。

AI读屏就是人类和手机交互模式改变的一个重要体现。

03

AI开始接管手机的一天

结合微软和谷歌的大模型竞争来看,AI读屏功能背后的技术逻辑与微软的Recall、谷歌的Circle to Search,以及OpenAI的GPT-4o有许多相似之处。

从技术实现的原理来看,包括OpenAI的GPT、Anthropic的Claude、谷歌Gemini和阿里通义千问在内的主流大模型,都具备实现AI读屏功能的能力。

实际上,在手机行业纷纷押注AI读屏功能的同时,智谱AI在与三星中国宣布战略合作的背景下,于2024中国计算机大会(CNCC 2024)上发布了AutoGLM。这一大模型以GLM命名,AutoGLM则代表了具备自主能力的大模型。有媒体将其解读为学会使用工具的大模型,但本质上,它是在手机上实现了AI读屏功能。这表明,AI读屏不仅是手机行业的趋势,也是大模型技术在实际应用中的重要体现。

根据官方信息,智谱AI的AutoGLM模型目前以App功能模块的形式出现,仅支持安卓手机,并且仍处于内测阶段。这个模型并不与手机的底层系统深度集成,也不限制手机品牌。

在这一过程中,手机厂商的角色显得尤为重要,主要体现在平台和数据方面。作为手机这一核心硬件的主导者,手机厂商不仅控制着平台入口,还具备强大的系统集成能力。这意味着,端侧智能体的智能程度,包括本地个人知识库的构建以及智能体的微调和优化,很大程度上依赖于手机厂商的软件团队。

此外,Anthropic在10月22日发布了Claude 3.5 Sonnet,这是OpenAI的主要竞争对手。在这次更新中,Anthropic引入了“computer use”功能,这实际上是一种PC版的AI读屏技术。它能够读取PC屏幕上的内容,并根据用户给出的任务指令,自动执行搜索旅游攻略、编写程序代码等任务。这显示了AI读屏技术从手机端向PC端的扩展,进一步证明了AI技术在提升用户交互体验方面的广泛应用潜力。

不过,在Anthropic官方的描述中,在OSWorld(评估AI 模型像人类一样使用计算机的能力)上,Claude 3.5 Sonnet的得分为14.9%,远未达到人类平均水平,人类平均得分是70%-75%。

要想提高模型准确度,本地个人知识库也就成了必须。

在过去这短短一周里,这么多AI巨头和手机厂商都瞄准了AI读屏功能在猛攻,显然是将这一功能视为了AI手机的杀手级应用。

AI读屏,确实最能体现AI手机的“AI”与智能手机的“AI”的本质区别,也是各大手机厂商的机会。

对于像大算投们这样的普通消费者来说,未来,AI不只会接管你的手机,甚至还会接管你的PC,乃至更多电子设备。

而这样的UI Agent,其实还不是端侧智能体的终极形态。

想了解更多项目可进加密圈交

0 阅读:0