豆包AI全行业梳理 - 财经资讯(玩酷网)

近期在豆包亮眼表现的催化之下，市场对字节链的关注度显著提升，随着字节入局AI硬件，除云端外，字节端侧逻辑也得到强化。

今日字节供应链全面暴涨，从行情演绎来看：《字节》=《华为》、《豆包》=《OPENAI》、《润欣科技/视觉中国》=《字节灵魂》=《常山北明/润和软件》、《五虎上将》=《中科蓝讯/恒玄科技/普冉股份/炬芯科技/乐鑫科技》、《AI芯片龙头》=《英伟达》。

今天字节火山引擎大会：AI全面升级

1）豆包通用模型：通用模型pro相较5月15日发布版本综合能力+32%、代码能力+58%、数学能力+43%、专业知识领域能力+54%；目前豆包通用模型pro能力已全面对齐GPT-4o，但价格仅为GPT-4o的1/8。

2）文生图模型：2.1版本在业界首次实现精准汉字和一句话P图能力。

3）音乐模型：实现可生成3分钟的完整作品，实现包括前奏、主歌、副歌、间奏、过渡段等复杂结构的作品创作。

4）豆包视频生成模型：预计2025年春季将推出豆包视频生成模型1.5，具备更强的长视频生成能力。

视觉理解模型超预期

具备更强的内容识别、理解和推理、视觉描述等能力，输入价格为0.003元/千tokens，比行业价格低85%，模型定价进入厘时代。视觉理解模型，可以用在教育讲题、医疗诊断等场景，也有潜力与在研的AI眼镜相结合。

我们一直强调，拥有视觉理解能力的交互型多模态大模型是应用爆发的基础，因为人类信息的绝大部分都是来自视觉，应用非常广泛。

字节展示了豆包大模型的视觉能力，包括地点认知、记忆能力、联想能力、搜索能力、识物能力、数学推理能力，响应时间也非常短。

前期最为热销的AI眼镜是雷朋+Meta，主要得益于其3A的独到之处，即自动曝光、自动对焦、自动白平衡。在此过程当中，ISP芯片的视觉处理能力发挥了至关重要的作用。

由于AI眼镜无法像手机一样通过人手实时操控调整对焦，所以对其智能化的物体识别等效果会更为重要。这也是多模态的基础。

在早期耳机时代，连接和音频处理是重中之重，但伴随着耳机向眼镜过度，视觉处理则更为关键。

豆包视觉理解模型对于AI眼镜意味着什么？

——更强交互性、更快产业化进程、更低的使用门槛。豆包视觉理解模型的推出将带来AI智能眼镜交互性的大幅提升，奠定了AI眼镜在AI载体中的重要地位；同时更低的使用成本有望加速AI眼镜的产业化进程。

1）豆包视觉理解模型具有几大特点：1）强大的内容识别能力，在识别基础上还能深入理解其关系、空间结构及整体语义；2）强大的理解和推理能力，可基于文字与图像信息进行复杂的逻辑推演与计算；3）细致的视觉描述和创作能力。

2）这一模型的发布意味着视觉输入将成为未来AI交互的重要方式，而AI智能眼镜更加轻量化、能够解放双手的特性令其将成为不可或缺的入口。

3）较低的使用成本将大幅降低AI眼镜门槛，有望加速产业化落地进程，渗透率有望进入快速提升阶段。豆包·视觉理解的输入价格为每千tokens 0.003元，比行业平均价格降低85%，相当于一块钱可以处理284张720P的图片。

存储：

豆包发布有视觉理解的大模型，眼镜载体如虎添翼，作为仅次于soc的第二大芯片bom物料，存储重要性不言而喻。

单核存储容量升级：AI端侧应用在芯片领域增加最为明显的将是算力和存储，未来端侧将增加运算功能，那么也将增加在端侧的存储数据量，对应存储芯片容量也将开启升级。

2+32或为主流存储方案：售价2400左右的智能手表华为watch存储配置为2+16，2k~3k左右智能眼镜存储配置在2+32左右的方案基本属于bom内可承受天花板，售价目前在6美金左右（峰值10美金左右，dram：nand约6:4）未来逐步升配到4+64也很合理

属于利基存储，国产受益：eMCP属于合封产品，内部die依然是普通dram和nand颗粒，模组厂也需外采，512MB LPDDR3~2GB LPDDR4X属于利基范畴，32GB以内的emmc也趋于利基（mlc逐步利基化），随着海外原厂逐步退出利基产能，国产将持续承接该部分市场。拥有利基dram、slc/mlc nand、mcp产品的公司，在这波ai眼镜产业发展中是真实受益且有弹性的。

行业总量看好AI在端侧的落地来重塑现有的IoT以及消费电子设备，包括手机、电脑、可穿戴以及各种IoT设备，引入AI功能后能够刺激换机需求，进而带动硬件产业链升级和刺激换机需求。从而增加对Nor Flash、SLC Nand、利基DRAM等存储的整体需求。

价格：NorFlash产品受前面两年内卷后，目前价格已平稳，格局逐步改善；利基DRAM，大厂专注DDR5和HBM高端市场，已在加速退出，我们预计明年上半年库存消化完将出现较大缺口，价格有望迎来上涨。

空间测算：

假设单副智能眼镜dram 6美金，nand 4美金：

1000万副时dram与nand市场容量4.5亿、3亿人民币

5000万副时dram与nand市场容量22亿、15亿人民币

假设国产届时占据70%以上份额，dram（龙一40%，龙二/三各15%左右），nand（龙一40%，龙二25%）

- 兆易创新：国内利基dram/nand龙头+新型3D存储方案布局中

增量假设：22*0.4+15*0.4=14.8亿（较wind一致预期24E营收+20%）

- 东芯股份：国内利基dram/nand头部+移远通信模组存储供应商+Wi-Fi7

增量假设：22*0.15+15*0.25=7.1亿（较wind一致预期24E营收+62%）

- 北京君正：国内利基dram头部+视觉ipc芯片国产头部（星宸、安凯微同赛道）

增量假设：22*0.15+15*0.1=4.8亿（较wind一致预期24E营收+11%）

SoC板块：

1）今日ISP芯片标的领涨。字节跳动大会发布“豆包·视觉理解模型”，视觉多模态能大幅拓宽AI应用的场景边界，同时这也引起市场对图像信号处理器ISP芯片的关注，星宸科技与富瀚微领涨。我们前期重点推荐过ISP芯片，由于Meta眼镜主打拍摄功能，要求SoC具备ISP模块，目前仅有高通AR1和展锐W517芯片将ISP集成于SoC当中，此外的眼镜主控芯片方案均需要外挂ISP芯片，这为ISP供应商提供了机会。国产ISP在安防领域份额较高，但在汽车、消费电子、工业等领域有较大提升空间。早前，行业协会提示谨慎采购美国芯片，有利于ISP芯片在各个领域的加速国产替代。

2）端侧AI与图像功能结合趋势。Meta-Rayban眼镜的一定程度得益于其拍摄功能，在光波导显示未成熟前，拍摄功能或成为AI眼镜的主打宣传功能。眼镜SoC除高通/展锐的方案，眼镜实现拍摄功能的性价比方案为耳机手表SoC +外挂ISP芯片。由于眼镜的SoC稀缺性、外挂硬件、软件开发等因素，相比用于手表的SoC的ASP翻倍。可穿戴设备的ISP对集成度和功耗要求高，制程要求先进，ASP可达到4-5美金。恒玄科技在下一代可穿芯片中会加入ISP模块，目前公司计划在2025年投片。

3）SoC在AI耳机/眼镜/玩具/机器人的大创新周期中大有作为。

~蓝牙耳机相对普及，天然适配于chat类语音智能交互场景，全球耳机年均3亿部，#AI耳机SOC升级潜在空间有百亿级别；

~AI眼镜目前处于“百镜大战”阶段，AR功能引入提升多模态交互体验，关注销量超50万爆品实现AI眼镜0到1突破，全球太阳眼镜年均5亿副，预计远期AI眼镜出货量在2-3亿量级#AI眼睛SOC空间有200-400亿级别；

~AI玩具/机器人目前形态更早期，陪伴类和教育类场景具备潜力，关注正式发布和后续销量情况，全球玩具市场规模1300亿美金，#AI玩具SOC潜在空间在百亿规模

4）对乐鑫的理解不要局限于AI玩具，本质上是受益于AI泛化、百花齐放的逻辑，当然玩具是其中很容易起量的大品类了。

实际上，我们上周四谈ISP的时候没有想到今天豆包的视觉理解模型会超预期；当时是从产业趋势角度判断，大模型会从文字到音频，再到视频。

今天豆包发布的视觉理解模型是一个具有视觉能力的可交互多模态大模型，填补了此前豆包的空白，而且价格低，超预期。

火山引擎微信公众号表示，【在智能终端领域，豆包大模型服务了终端行业客户50+AI应用场景，覆盖超过了3亿个终端设备，为消费者带来更加智能的生活与工作体验，来自智能终端的豆包大模型日均tokens调用量从5月到12月增长了100倍】——后续，视觉理解能力将极大拓展大模型的场景边界，为大模型的场景使用打开天花板，智能终端的潜力很大。

重点关注具备ISP技术积累的厂商。

AI硬件产业链调研反馈：

1）SOC（包括nor）、存储（存算一体）、电池（固态）、镜片（轻），重要性和价值量会越来越高，带动其价值量及上游产业链，尤其关注SOC产业链及其上游内核；

2）自牌逻辑较弱，配镜存在被颠覆风险，组装价值量会从当前高价格回归到一个稳态价格，但有望最先产生业绩；

3）根据供应商调研苹果发布AI眼镜预计在2026年；

4）带显示AI眼镜关注需要到单季度出货量超20万，或重要大厂推出带显示产品；

5）全产业对AI硬件都相当看好，尤其需要关注国外：openai、苹果、meta；国内：字节、华为、小米等事件性的推动。