DeepSeek砍掉英伟达台积电5万亿市值!登五大外媒头版,OpenAI急得发预告

智东西 2025-01-28 14:04:46

作者 | ZeR0

编辑 | 漠影

一只蓝色鲸鱼,正在硅谷和华尔街掀起海啸。

智东西1月28日报道,震动美股的“国产AI之光”DeepSeek,在疯狂霸屏主流美媒头版、令美股科技股血流成河后,今日乘势追击——发布全新开源多模态AI模型Janus-Pro!

OpenAI显然也感受到DeepSeek带来的压力。今日,OpenAI联合创始人兼CEO Sam Altman连发多条推文,难得公开夸赞DeepSeek R1,称这是一款“令人印象深刻的模型”。接着他给自家模型打广告,说OpenAI将推出更好的模型,而且会继续执行原有路线图,相信更多计算比以往任何时候都更重要。

根据DeepSeek披露的信息,新开源模型Janus-Pro-7B在GenEval和DPG-Bench基准测试中,性能击败OpenAI DALL-E 3和Stable Diffusion。这显然又戳中了业界的兴奋点,网友们在社交平台发出各种梗图。其中一张图给GPT-5打了个大红叉,在巨鲸身上放了个大大的DeepSeek logo。

此前DeepSeek新模型R1的发布,凭借前所未有的高性能和成本效益,彻底坐实了“国产AI价格屠夫”的标签,令整个硅谷惊慌失措,业界对美国科技巨头重资砸向AI基础设施的必要性产生质疑。(突发!DeepSeek暴击美股,让整个硅谷坐立不安)

随着影响力快速发酵,DeepSeek登顶中美等多国App Store免费榜。受DeepSeek冲击美股影响,英伟达昨日股价暴跌17%,收于118.42美元/股,市值蒸发近6000亿美元(折合人民币近4.35万亿元)。一天之内,排名彭博亿万富豪榜第15名的英伟达创始人兼CEO黄仁勋财富缩水201亿美元(约合人民币1458亿元)。

其晶圆代工供应商台积电的市值也在昨日蒸发了1508亿美元(约合人民币1.09万亿元)。等于DeepSeek作为“AI界拼多多”,一刀“砍掉”了英伟达和台积电共超5万亿元市值,实属罕见。

美股科技股、芯片股均受重挫,纳斯达克100指数下跌3.1%,标普500指数下跌1.5%,微软下跌2.14%,谷歌母公司Alphabet下跌4.03%,博通下跌17.40%,台积电下跌13.33%,ASML下跌5.75%,为AI基础设施提供电气硬件的西门子能源下跌20%,电力产品制造商施耐德电气下跌9.5%……对AI竞赛并不热衷的苹果则安然无恙,在一众暴跌的科技股中逆势上涨3.2%,重返全球市值第一。

多家主流外媒的网站头版都是针对DeepSeek的报道,这十分少见。

随着以闪电速度陆续开源高质量新模型,DeepSeek在全球科技圈引起的轰动效应还在持续扩大。

新发布的Janus-Pro有1B和7B两款尺寸,能输出生成高质量的AI图像,一如既往开源、免费、可商用。13页技术报告已经公开。

“Janus-Pro超越了之前的统一模型,达到甚至超过了特定任务模型的性能。”DeepSeek在一篇文章中写道,“Janus-Pro的简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。”

网友们已经在社交平台上积极晒出对Janus-Pro-7B的体验。总体来看,Janus-Pro-7B的信息理解基本准确,生成图像很完整,在局部细节上相对有欠缺。

以下是DeepSeek最新多模态理解和生成模型Janus-Pro的技术解读:

根据技术报告,Janus-Pro是前作Janus的升级版,结合了优化的训练策略、扩展的训练数据,并扩展到更大的模型尺寸,在多模态理解和文本到图像的指令遵循能力方面都取得了显著进步,同时也增强了文生图的稳定性。

技术报告:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

Janus-Pro只能分析分辨率至多384 x 384的小图像。但考虑到模型尺寸很小,其性能令人印象深刻,相比前代输出了更好的视觉质量、更丰富的细节,并具备生成简单文本的能力。

对于富有想象力和创造性的场景,Janus-Pro-7B能够从提示中准确捕获语义信息,产生合理和连贯的图像。

Janus-Pro 1B模型更适合需要紧凑高效的AI任务,比如在消费级硬件上做轻量化部署。这款模型同样在GenEval等基准测试中取得了较高的平均性能,证明它能够以更少资源在指令遵循和图像分析上表现出色。

此前一些统一多模态理解和生成模型方法已被证明可以增强视觉生成任务中的指令遵循能力,同时减少模型冗余。它们大多使用相同的视觉编码器来处理多模态理解和生成任务的输入。由于两个任务所需的表示不同,这通常会导致多模态理解中的次优性能。

为了解决这个问题,Janus提出了解耦视觉编码,将视觉理解与图像生成任务分开,确保两个任务不会互相干扰,从而在多模态理解和生成任务中都取得了优异的性能。Janus在1B参数尺寸上进行了验证,但受限于训练数据量和相对较小的模型容量,它表现出一定的缺点,例如短提示图像生成的性能不理想、文生图质量不稳定。

Janus-Pro则是Janus的增强版,着重改进了训练策略、数据和模型大小。新模型遵循一款自回归框架,解耦了多模态理解和视觉生成的视觉编码。研究团队采用独立的编码方法将原始输入转换为特征,然后由统一的自回归Transformer进行处理。

其实验使用最大支持序列长度为4096的DeepSeek大模型(1.5B和7B)作为基础模型。

对于多模态理解,研究人员使用SigLIP-Large-Patch16-384编码器从图像中提取高维语义特征,将这些特征从二维网格平展到一维序列,并使用理解适配器将这些图像特征映射到大语言模型的输入空间中。

对于视觉生成任务,研究人员使用VQ tokenizer将图像转换为离散ID,在将ID序列平面化为1-D后,使用生成适配器将每个ID对应的码本嵌入映射到大语言模型的输入空间中,然后将这些特征序列连接起来形成一个多模态特征序列,随后将其输入大语言模型进行处理。

除了大语言模型中内置的预测头外,研究人员还在视觉生成任务中使用随机初始化的预测头进行图像预测。

前代Janus模型采用了三阶训练过程:第一阶段的重点是训练适配器和图像头,第二阶段是使用多模态数据做统一预训练,第三阶段是进行监督微调。这种方法使Janus能够胜过更大的模型,同时保持可管理的计算占用空间。但经实验,其策略会导致大量计算效率低下。

为此DeepSeek做了两处修改:一是增加第一阶段的训练步骤,允许在ImageNet数据集上进行足够的训练;二是在第二阶段,放弃ImageNet数据,直接利用正常的文生图数据来训练模型,以基于密集描述生成图像。这种重新设计的方法使第二阶段能够更有效地利用文生图数据,从而提高训练效率和整体性能。

研究人员还调整了第三阶段监督微调过程中不同类型数据集的数据比例,将多模态数据、纯文本数据和文本到图像数据的比例从7:3:10更改为5:1:4,使模型在保持出色视觉生成能力的同时,实现改进的多模态理解性能。

Janus-Pro将模型大小扩展到7B。当使用更大规模的大语言模型时,与较小的模型相比,多模态理解和视觉生成的损失收敛速度都有显著提高。该发现进一步验证了这个方法的可扩展性。

研究人员在训练过程中使用序列打包来提高训练效率,在单个训练步骤中根据指定的比例混合所有数据类型。Janus使用轻量级高效分布式训练框架HAI-LLM进行训练和评估。对于1.5B/7B模型,在16/32个节点的集群上,每个节点配备8个英伟达A100 (40GB) GPU,整个训练过程大约需要7/14天。

DeepSeek在多个基准上对Janus-Pro进行了评估,结果显示了出色的多模态理解能力和显著提高的文生图指令遵循性能。

比如Janus-Pro-7B在多模态理解基准MMBench上获得了79.2分,超过最先进的统一多模态模型;在文生图指令遵循基准测试GenEval中,Janus-Pro-7B得分为0.80,超过Janus、Stable Diffusion 3 Medium、DALL-E 3、Emu3-Gen、PixArt-alpha等先进图像生成模型。

总体来看,Janus-Pro在训练策略、数据、模型大小上的改进,使其取得多模态理解和文生图指令遵循能力的进步。该模型仍存在一定的局限性,例如在多模态理解方面,输入分辨率限制为384 × 384会影响其在细粒度任务(如OCR文本识别)中的性能。

对于文生图,低分辨率加上视觉tokenizer带来的重建损失,导致图像虽然具有丰富的语义内容,但仍然缺乏精细的细节。例如,占用有限图像空间的小面部区域可能显得不够精细。技术报告指出,提高图像分辨率可以缓解这些问题。

0 阅读:333
评论列表
  • 2025-01-29 11:16

    开源公开,又是一个科学无国界的主[呲牙笑]

  • 2025-01-28 16:31

    斯普特尼克时刻来临,没有一片雪花是无辜的[捂脸哭][捂脸哭][大笑]

  • 2025-01-28 14:33

    梁已经上了CIA黑名单

  • 2025-01-28 22:27

    一天蒸发一个星际之门[doge]

  • 2025-01-28 23:52

    这是今年过年收到的最好礼物

  • 2025-01-28 18:04

    中国人也有翻身的日子。[呲牙笑][呲牙笑][呲牙笑]

智东西

简介:智能产业第一媒体!聚焦智能变革,服务产业升级。