丁磊:DeepSeek爆火,你不知道的AI真相

衷心书院 2025-02-28 07:16:45

过去的2024年,可以说是人工智能发展的分水岭,是大模型技术从量变到质变的关键一年。

无数大模型正在以肉眼可见的速度渗透进各行各业的“毛细血管”中。众多互联网产品都嵌入了AI功能模块,技术突破、应用普及以及开源与商业化并行发展……这种技术创新和产业落地的双螺旋演进,标志着人工智能已然进入了一个全新的时代。

2025年新年伊始,DeepSeek大模型横空出世,一举成为了国内外用户关注的焦点。在大模型技术产品林立的当下,DeepSeek凭什么还能“玩出更新的花样”,吸引这么多人的目光?

DeepSeek的爆火核心在于八字秘笈:低成本、高性能、开源。这种技术跃进打破了“算力即王权”的行业定律,不仅能以更低成本实现预期效果,还能减少对高端芯片的依赖,而算力成本的下降往往会带领技术普及进入下一个拐点。

在铺天盖地的海量信息之中,我们到底应该怎样理解当下的AI?全民AI的智能化时代难道真的要来了吗?

为了回答这些问题,中信书院特邀人工智能专家、《生成式人工智能》作者丁磊博士,以资深从业者的视角,从AI的底层逻辑出发,为我们正本清源,理清思路。

1 祛魅:大模型不能为我们做什么?

大模型如此火爆,让不少人都以为它真的“无所不能”,普遍对它预期过高。我们先来客观、理性地拆解一下,究竟哪些是大模型不能解决的问题。

下面就来看两个通用大模型无法解决的问题——

第一个问题:求解复杂的数独

如果我们给大模型出了这样一个较为复杂的数独题目,并要求它帮我们解答出来:

大模型就会像人类一样,开始煞有介事地一步步描述解题过程:

“填充第一宫(左上角):第一行缺少的数字是 1, 2, 4, 6, 8, 9。通过排除法,可以确定:(1,3) = 4(1,4) = 6(1,6) = 2(1,7) = 8(1,8) = 9(1,9) = 1......”

等到描述完全部9宫的推理过程之后,输出了一个它认为正确的答案:

此外还对最后结果进行了点评:“因每一行、每一列和每一个 3x3 宫都包含数字 1 到 9,且没有重复。解答正确!”

但显然,不完全正确!

我们先不去尝试解读每一步的推理是否合理,仅最后的结果就已经发现不尽如人意:除了第1宫(左上)、第4宫(左中)、第7宫(左下)外,其余6宫都没能正确解出、存在数值冲突,甚至模型自检时居然将错误的答案判定为正确——大模型居然连数独结果是否正确都无法判断。

经本次实验验证,当前主流大模型在复杂数独题中的表现令人深思。

这个结果如同拼图中缺失的关键块,揭示了大模型的局限性,它可以辅助我们解决简单的数独问题,但在面对需要严密逻辑推导的复杂题目时,它的能力还远远不够,错漏百出。因此高难度的数独题目或者其他需要逻辑推导的高阶谜题仍然需要人类玩家或专门的数独求解工具来完成。

第二个问题:研发新能源汽车

我们向大模型再次提出要求:“请设计出一款比电动车更加环保的汽车,而且要前所未有,不能回答已有研究成果。”

大模型交出了一份颇具科幻色彩的答卷,设计方案是这样的:

“汽车名称:光合动力车(Photosynth Car)

核心概念:

光合动力车是一种通过模拟植物光合作用,将阳光、二氧化碳和水直接转化为动力的汽车,真正实现负碳排放。

工作原理:

1)光合能量转换系统:

仿生叶膜:车顶和车身覆盖仿生叶膜,内含人工光合作用催化剂,可将阳光、二氧化碳和水转化为氧气和液态燃料(如甲醇)。

能量存储:生成的液态燃料存储在车载燃料箱中,为车辆提供动力。

2)碳捕获与转化:

碳捕获装置:车辆前端装有高效碳捕获装置,可吸收空气中的二氧化碳。

碳转化系统:捕获的二氧化碳与仿生叶膜生成的水结合,通过催化反应转化为燃料。

3)动力系统:

甲醇燃料电池:使用仿生叶膜生成的甲醇作为燃料,通过燃料电池发电驱动电机。

辅助电池:配备小型锂电池,存储多余电能,供夜间或阴天使用。

......”

大模型看似提出了突破性的汽车能源构想,但我们查阅资料后发现,早在10多年前就有相关文章描述过光合作用动能车的概念。大模型仿佛一个庞大信息拼图师,还是如我们所预期的那样,将海量数据资料中的陈旧碎片,重组为它认为“前所未有”的信息。

在后续的反复测试中,我们多次尝试了同样的要求,大模型陆续输出生物动能车、生态动力车等方案,经查证既有的案例库,这些方案也都能在过往的文献中找到原型,或是直接照搬,根本不符合“不能回答已有成果”的要求。

关于大模型目前存在的短板,我们来总结一下,上面的两个问题其实分别属于:

1.通用大模型无法求解复杂逻辑问题。

比如,系统证明数学定理或者城市交通网络的动态优化,面对这种问题,就像计算器无法代替数学家思考一样,大模型会过度依赖统计规律生成的答案,在需要抽象推理的情境下中遭遇瓶颈。

它像是一位博学的图书馆管理员,虽然能快速整理千万册书籍中的信息,却难以完成复杂的逻辑思考。

2.通用大模型无法进行创造性工作。

在创造性领域,大模型也更像拼贴艺术家,而不是真正的创作大师。它可能能够重组达芬奇遗失的手稿片段,却无法创作出《蒙娜丽莎》般颠覆艺术史的伟大作品。当我们要求大模型设计开创性的科技产品时,它给出的往往是既有专利文献的整合性碎片。

这提醒我们既要善用大模型的“超强记忆力”,也要清醒地认识到它的局限性。但在当下,很多人陷入了大模型的应用怪圈,很多人希望它解决如上所述的问题。大模型的优势在于基于海量数据生成合理文本,而不是逻辑推演或者核查事实。这种特性会导致它在处理精确数值计算、实时信息更新,或者需要专业判断的任务时,混淆概念边界,给出看似合理实际上漏洞百出的答案。

我们需要重新认识到大模型的局限性,面对大模型时不要期待过高,不用大模型处理它不擅长的问题。下面我们来客观分析一下,大模型的能力天花板到底在哪里。

2 正本:人类的已知、未知和大模型

我们从两个关键维度来剖析大模型的真实能力边界:知识储备和逻辑推演。大模型拥有海量知识库,能快速检索数万亿字的人类智慧结晶,它能把书籍吃透的程度,决定了理解事物的深度,它能给到你想要的知识,却很难辨别真伪。而面对逻辑推演,大模型在思考时展现出的逻辑链条像是拼图游戏,只会遵循固有模式,却缺乏创造力,可以说是被困在了“信息茧房”中。

第一,大模型的知识基础。

大模型展现的知识储备看似包罗万象,其实就像被时空框定在某个位置的“数字琥珀”,其训练数据和认知边界会被训练数据的时空范围框定,它是无法突破训练数据的局限的。而人类社会所留存的知识,远不能涵盖物理世界运行的所有范畴。一起来看下面这张图,会发现大模型的知识体系主要由下面两大支柱组成:

1、数字原生内容:互联网上的内容和人类典籍的总和,这些是语言类大模型训练的主要数据,构成了大模型的基础认知,也对应了通用大模型所能解决问题的主要类型。

2、符号知识内容:经过精心设计的数理逻辑训练,会通过专门的数据让大模型建构起数学、物理等专业符号化知识体系,这类技能(例如:求解数学竞赛题)虽然看似高深,但仍属于人类现有知识范畴内。

与实际应用情况不同的是,很多人想解决的问题偏偏属于特定的物理空间或业务场景,不论是相关术语、概念还是具体的业务数据,在图中所述的“数字空间”中都不存在精准的内容指向,即尚未形成“数字孪生”。这种情况下,你提出的问题自然不会得到完美的解决方案。假如你是一位建筑学家,计划设计出一座可容纳5万人的地下体育馆,想让大模型优化你的设计初稿,需要它精确地规划动线、划分场地功能区等,面对这种需要场景化知识的需求,大模型给出的答案往往不尽如人意。

第二,大模型的推理能力

在“吃透”海量知识的基础上,大模型又是如何发挥它的推理能力呢?在探索大模型的实际应用中,我们常发现一个耐人寻味的现象:它展现着惊人的知识储备,却在简单问题上频频“露怯”。这与其内在的学习逻辑密不可分——模型通过数万亿参数捕捉词语间的关联规律,就像编织了一张巨大而精密的语言网络。

当面对需要层层推演的复杂问题或精确度要求极高的任务时,仅靠这种经验式的关联匹配就会显露出局限性。知识的广度不等同于理解的深度,系统可能给出语法通顺、看似正确的回答,但在核心逻辑或关键数据上存在经不起推敲的破绽。

这种非故意但脱离现实的输出现象可以形象地称为“幻觉”,提醒我们既要善用其知识储备,也要清醒认识到它的认知边界。为了解决这个问题,推理型大模型(例如,DeepSeek-R1)应运而生,它和普通大模型的差异如下图。

从图中我们可以看到,推理型大模型在拆解问题、思考流程上都有显著的跃升。普通大模型通常直接输出结果,而正在崛起的推理型大模型却展现出更接近人类思维的特质。这类模型会采用“思维链”的思考方式(Chain-of-Thought),如同解题高手在草稿纸上演算,会先把问题拆解为多个逻辑步骤。

相比于普通大模型直接抛出结论的“填鸭式回答”,推理型模型更注重展示完整的解题思路——就像训练有素的教师既给出答案,更耐心演示每个推演环节。

3 未来:面向场景的大模型应用模式

大模型的能力边界始终是行业关注的焦点,在上面的论述中,我们从多维度剖析了大模型的强势和弱势区间。

现在让我们切换视角观察这个命题,以通用大模型DeepSeek-V3为例,其预训练数据量高达惊人的14.8万亿token(词元),虽然实际要解决的问题复杂度往往低于这个量级,但要求大模型对某些问题领域有更精准、更深入的理解也是应有之意。

应用大模型必须深入理解业务场景的核心需求,在既定的业务和模型框架下,通过不断训练和定制,使其在业务场景下精准解决问题,才能实现真正的能力跃迁。

以下我们勾勒了未来企业从定制大模型中获益的三种可能模式:

第一,领域定向微调(DSFT,Domain-Specific Fine Tuning)

如同为不同岗位培养不同类型的专业人才,DSFT会通过针对性训练,让通用大模型精通特定领域,相当于为大模型进行定向的“职业技能培训”,这将让大模型在医疗、法律等专业垂直领域具备深度理解和解决问题的能力,DSFT适用于需要高度专业化输出的场景,如医学影像分析、法律文书生成等。

第二,检索增强生成(RAG,Retrieval Augmented Generation)

仿佛给AI配置了实时更新的百科全书,RAG通过连接外部知识库,让模型在回答问题时能实时查阅资料,在思考过程中增加了一环“事实核查环节”。RAG非常适合需要结合私有数据的应用场景,如智能客服系统或企业知识系统等。

第三,检索增强微调(RAFT,Retrieval Augmented Fine Tuning)

RAFT结合了这两者的优势,既对大模型进行定向培训,也给它提供外部知识库,但通过一种特定的训练模式,能显著提升大模型在复杂环境中筛选相关信息的能力,自动忽略不相关的知识库内容。因此,RAFT适用于对大模型回答的精准性要求高的行业和场景。

随着技术的持续迭代,未来大模型定制化方案将呈现更精细的融合创新趋势。在现有技术基础上,算法架构的进化将催生出更多新范式,通过多模态数据融合与增量式训练策略,使模型具备持续进化的领域认知能力,构建兼具专业深度与跨领域迁移能力的智能体。

在这个方向上,企业不仅能实现单点任务的精准突破,更能打造覆盖业务全链条的智能体系。这种从“工具赋能”到“系统进化”的跃迁,将推动大模型在产业实践中释放出指数级价值,助力企业在AI浪潮中构筑核心竞争力。

结 语 抛弃幻想,实事求是

任何工具都有自己的适用范围,大模型也不例外,不要有不切实际的幻想,但是可以通过多种高级的使用方法来获得超额收益。

首先,大模型就像我们生活中常见的瑞士军刀——看似功能全面,但真正要削苹果皮还是得用水果刀,开红酒还得选专用的开瓶器。很多人觉得接上大模型就能解决所有问题,但显然不太现实。只有先弄明白大模型最适合在哪些情况下使用,我们才能在实际应用中选对工具,让它真正帮我们解决问题、创造价值。

其次,无论是前文中我们论述的“调教”大模型的方法,还是未来可能出现的更加有效的方案,都需要基于特定行业和场景的数据,构建起大模型对特定语义的理解和知识储备,使其针对具体业务需求不断训练和反馈,优化场景适配性和内容合规性。在这个过程中,我们需要注意数据质量和训练规则的优化,最终实现场景落地与持续迭代。

最后,当企业级定制彰显着大模型深度价值的同时,普通用户也在与它展开多维互动。现在很多人把大模型当作搜索引擎用,可以试试让它扮演不同角色:当需要商业分析时就设定成“有十年经验的市场总监”,处理情感问题就切换成“心理咨询师”模式。对当代使用者而言,掌握“提示词”这类技巧如同获得了大模型的导航系统,让大模型实现从“能用”到“好用”的跨越。

总之,在这个技术快速迭代的时代,理解工具的边界往往比盲目追求突破更重要——正如爱因斯坦所说:“想象力比知识更重要”,但正确使用工具才是连接两者的桥梁。

【推荐阅读】丁磊《生成式人工智能》布局人工智能未来▽

0 阅读:5

衷心书院

简介:感谢大家的关注