复旦大学：2024大语言模型的能力边界与发展思考报告

“欧米伽未来研究所”关注科技未来发展趋势，研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。（关于欧米伽理论）

来源：欧米伽未来研究所

一、引言

在当今科技飞速发展的时代，大语言模型如 ChatGPT 等成为了人们关注的焦点。它们在诸多领域展现出了惊人的能力，从写诗、写代码到辅助医疗诊断，似乎无所不能。然而，随着应用的深入，人们也逐渐发现大语言模型并非万能，其在落地应用中面临着诸多挑战，其能力边界也逐渐成为研究的重要课题。复旦大学的这份报告对大语言模型的能力边界与发展进行了深入探讨，有助于我们更全面、深入地了解这一前沿技术。

二、大语言模型的基本原理与训练过程（一）基本原理大语言模型的核心任务是根据已有的文本生成合理的延续内容。它通过对数十亿个网页、数字化书籍等人类撰写内容的统计规律进行学习，推测接下来可能出现的文字。例如，当给定一段文本 “今天天气真好”，模型会基于其学习到的语言模式和常见搭配，生成诸如 “适合出去游玩”“让人心情愉悦” 等合理的后续内容。（二）训练过程预训练阶段

知识记忆与表示学习：在这个阶段，模型接触数千亿单词的图书、百科、网页等海量数据。通过对这些数据的学习，模型进行知识压缩和表示学习，将知识以一种特定的方式存储在模型参数中。例如，对于一些常见的知识，如历史事件、科学概念等，模型会学习到其相关的表述方式和语义关系。

能力提升：模型能够对输入的文本进行初步的理解和处理，学习到语言的基本结构和语义信息。同时，通过大规模的数据训练，模型可以达到一定程度的知识存储能力，如 2bit / 参数的知识存储能力（在有足够训练的情况下）。

有监督微调阶段

任务能力注入：利用少量数据训练模型具备特定任务能力。例如，在知识问答任务中，针对 “复旦大学有几个校区？” 这样的问题，标注人员构造目标答案 “复旦大学现有 4 个校区，分别是邯郸校区、新江湾校区、枫林校区和张江校区。其中邯郸校区是复旦大学的主校区，邯郸校区与新江湾校区都位于杨浦区，枫林校区位于徐汇区，张江校区位于浦东新区。” 模型通过学习这些标注数据，逐渐掌握回答此类问题的能力。

训练策略：包括多种方式，如多任务学习、顺序训练等。不同的训练策略对模型性能有不同影响。例如，在一些实验中发现，参数量大的模型在使用相同数量的数据进行训练时表现出更优越的性能；混合数据来源在低资源场景中可能提高性能，但在高资源场景中性能可能下降。

奖励函数与强化学习阶段

提升表现：通过奖励函数和强化学习，模型进一步优化其输出。例如，在回答问题时，如果模型给出了准确、有用的答案，就会得到较高的奖励，从而引导模型在后续的生成中更倾向于给出高质量的回答。

训练框架：如 RLHF（基于人类反馈的强化学习）训练框架，通过人类对模型输出的偏好标注，不断调整模型参数，使模型的输出更符合人类期望。

三、大语言模型的能力边界（一）知识记忆与运用

知识记忆能力

模型在预训练阶段能够记住大量知识，但需要足够多的 “曝光” 才能完成记忆。对于每个知识，要达到 1000 次曝光才能较好地存储，如果只有 100 次曝光，知识记忆能力会显著下降。例如，一些生僻的专业知识，如果在训练数据中出现次数较少，模型可能无法准确记忆和运用。

训练数据的质量对知识记忆至关重要。高质量、高知识密度的数据有助于模型更好地学习知识，而 “垃圾数据” 会对知识获取产生显著影响。例如，在含有大量错误信息或无关信息的数据中，模型难以准确提取有用知识。

知识运用能力

检索能力：模型在一定程度上可以回答如 “person A 的属性 X 是什么？” 这样的问题，但准确性取决于模型对相关知识的记忆和理解。例如，询问 “爱因斯坦的出生日期”，模型可能能够给出正确答案，但对于一些更复杂、模糊的检索问题，可能会出现错误。

分类和比较能力：语言模型在分类和比较任务上表现较差。如对于 “Is A 的属性 X 是偶数还是奇数？”“Is A 在属性 X 上大于 B？” 这样的问题，模型的准确率较低。例如，判断两个人的出生月份谁更早这样的比较任务，GPT4 的准确率仅为 52.3%（在 1900 - 1910 年出生的人群中）。

逆向搜索能力：模型通常无法进行逆向知识搜索，除非知识以逆序出现在预训练数据中。例如，对于 “哪个人的属性 X 等于 T？” 这样的逆向问题，模型很难准确回答。

（二）推理能力

逻辑推理

在一些简单的逻辑推理任务中，大语言模型能够表现出一定的能力。但在需要复杂逻辑推理的任务中，模型的准确率会显著下降。例如，在数学推理中，面对一些需要多步推理的问题，模型可能会出错。如在高考数学题的测试中，大模型虽然能回答部分题目，但即便正确回答的题目，计算过程和答案不相符的比例也很高。

在处理分布外数据集时，模型的逻辑推理能力面临挑战。例如，GPT - 4 擅长解决著名的逻辑推理阅读理解基准，但在处理新创建的分布外数据集合时，性能明显下降。

归纳推理

当任务复杂程度增大时，模型的归纳推理能力有限。例如，在乘法计算任务中，随着数字位数的增加，模型的准确率接近为 0。即使在训练过程中加入过程解释（如在计算 35 乘以 90 时，详细列出计算步骤），其作用也十分有限。

演绎推理

大模型在多跳知识问题的推理中可能存在问题。例如，在涉及多步推理的知识问答中，模型可能会应用在预训练阶段学习到的事实捷径，而不是进行准确的逻辑推导。如在询问下一届奥运会举办地相关问题时，即使知识被编辑修改，模型可能仍给出错误答案。

（三）文本生成能力

语言生成的多样性与准确性

模型可以生成看似合理的文本，但在语言多样性方面存在一定问题。同样的语义可以用多种不同文字描述，但模型可能无法完全涵盖所有合理的表达方式。例如，在创作故事时，可能会生成较为常规的情节和表述，缺乏创新性和独特性。

生成的文本可能存在事实性错误或逻辑不连贯的情况。尤其是在涉及专业知识或复杂情境时，模型可能会生成不准确的内容。

对特定领域知识的理解与应用

在一些需要专业知识的领域，模型虽然能生成相关文本，但可能缺乏深入的理解。例如，在医学领域，虽然能提供一些疾病的基本信息，但对于复杂疾病的诊断和治疗建议可能不准确。

在处理特定格式或要求严格的文本时，模型可能无法完全满足需求。如在起草合同等法律文件时，即使具备一定的知识，也难以生成完全符合法律规范和实际需求的文本。

（四）任务执行能力

单一模型多任务处理

单个大语言模型可以处理数千种任务，但仍需要逐项进行优化。不同任务对模型的要求不同，模型在不同任务上的表现也有差异。例如，在知识问答任务中表现较好的模型，在规划任务中可能表现不佳。

规划能力

在规划任务中，如在 Mystery Blocks World 的规划任务测试中，模型的表现并不理想。例如，对于让橙色积木在蓝色积木上面这样的简单规划目标，不同模型的成功率都较低，Claude 3.5 Sonnet 在 One Shot 情况下的成功率仅为 3.1%，GPT - 4o 在 Zero Shot 情况下成功率为 0%。

四、大语言模型的发展思考（一）当前面临的问题

训练数据与模型性能

训练数据的规模和质量对模型性能影响巨大。虽然大规模数据有助于模型学习更多知识，但同时也带来了数据管理和筛选的挑战。例如，如何确保数据的准确性、多样性和时效性，避免 “垃圾数据” 的干扰，是当前需要解决的问题。

模型在不同任务上对数据量的需求不同，如何确定最优的数据量和数据分布，以提高模型在各种任务上的性能，仍需进一步研究。

模型的可解释性与安全性

大语言模型的决策过程和输出结果往往难以解释。这在一些关键应用领域，如医疗、金融等，可能会带来风险。例如，在医疗诊断中，如果模型给出了诊断建议，但无法解释其依据，医生和患者难以信任和应用。

模型可能会生成有害、不道德或不符合社会规范的内容。如何确保模型的输出安全、合规，是发展过程中需要关注的重要问题。例如，防止模型生成歧视性、虚假宣传等内容。

模型的能力边界与应用场景适配

对模型能力边界的清晰认知有助于更好地选择应用场景。但目前在实际应用中，往往存在对模型能力过度期望或错误应用的情况。例如，在一些需要高精度和专业知识的场景中，如设计资料审核，如果仅依赖大语言模型，可能无法达到预期效果，还需要结合专业人员的判断。

（二）未来发展路径

追求 AGI（通用人工智能）

目标：OpenAI 等机构致力于发展 AGI，旨在让模型代替人类完成所有脑力劳动，具有自我学习、自我进化能力。例如，像人类一样能够自主学习新知识、适应新环境、解决各种复杂问题。

挑战：这需要不断扩大模型的参数规模（如达到 1 万亿、5 万亿、10 万亿等）、增加训练数据量（10TB、20TB、40TB、100TB 等）以及扩大 GPU 卡规模（1 万、5 万、10 万甚至 100 万卡）。然而，目前在模型的推理和世界知识建模能力构建方面面临巨大挑战，并且资本消耗巨大。

聚焦特定任务应用

目标：针对特定任务进行优化，用相对较小规模的模型（如 1B、3B、7B、14B、30B、70B 等参数规模），结合几千到几万条训练数据，在特定领域或任务中发挥作用。例如，在智能客服、简单文本生成等领域。

挑战：需要准确判断模型在不同任务上的能力边界，选择合适的应用场景。同时，要确保在特定任务中的应用具有实际价值，能够真正提高效率或解决问题。

（三）推动发展的策略

基础理论研究

深入研究大语言模型的基础理论，如知识存储、表示学习、推理机制等。例如，通过对知识容量缩放定律等的研究，更好地理解模型如何学习和运用知识，为模型的改进提供理论依据。

改进训练方法

探索更有效的训练方法，如优化有监督微调的策略、改进强化学习算法等。例如，研究如何在不影响模型世界知识的前提下，提高模型在特定任务上的性能，避免大规模微调导致的知识遗忘等问题。

建立评估与验证体系

建立完善的评估和验证体系，对模型的性能、能力边界、安全性等进行全面评估。例如，在模型应用前，通过各种测试数据集和实际场景测试，准确评估模型的适用性和可靠性，确保模型在实际应用中的有效性和安全性。

五、结论

大语言模型在过去几年中取得了显著的发展，展现出了强大的文本生成和一定程度的知识处理能力。然而，通过对其能力边界的深入分析，我们发现它们在知识运用、推理、任务执行等多方面仍然存在局限性。在未来的发展中，无论是追求 AGI 还是聚焦特定任务应用，都需要克服诸多挑战。一方面，要不断投入资源进行基础理论研究和技术创新，提高模型的性能和能力；另一方面，要理性看待模型的能力，合理选择应用场景，充分发挥其优势，避免盲目应用带来的风险。只有这样，大语言模型才能在科技发展和社会进步中发挥更大的、积极的作用。同时，社会各界也需要共同关注模型的发展，加强监管和引导，确保其安全、可靠、有益地发展。

阅读最新前沿科技研究报告，欢迎访问欧米伽研究所的“未来知识库”

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或点击本文左下角“阅读原文”进入。

截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告

1. 牛津大学博士论文《深度具身智能体的空间推理与规划》230页

2. 2024低空经济场景白皮书v1.0（167页）

3. 战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）

4. 人工智能与物理学相遇的综述（86页）

5. 麦肯锡：全球难题，应对能源转型的现实问题（196页）

6. 欧米伽理论，智能科学视野下的万物理论新探索（50页报告）

7. 《美国反无人机系统未来趋势报告（2024-2029 年）》

8. Gartner 2025 年主要战略技术趋势研究报告

9. 2024人工智能国外大模型使用手册+中文大模型使用手册

10. 详解光刻巨人ASML成功之奥妙-241015（94页）

11. CB Insights：未来变革者：2025年九大科技趋势研究报告

12. 国际电信联盟2023-2024年联合国人工智能AI活动报告388页

13. 《人工智能能力的人类系统集成测试和评估》最新51页，美国防部首席数字和人工智能办公室（CDAO）

14. 2024瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

15. MHP：2024全球工业4.0晴雨表白皮书

16. 世界经济论坛白皮书《AI价值洞察：引导人工智能实现人类共同目标》

17. 瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

18. AI智能体的崛起：整合人工智能、区块链技术与量子计算(研究报告，书）

19. OpenAI o1 评估：AGI 的机遇和挑战（280页）

20. 世界知识产权组织：2024 年全球创新指数（326页）

21. 美国白宫：国家近地天体防御策略与行动计划

22. 【CMU博士论文】持续改进机器人的探索，243页

23. 中国信通院：量子计算发展态势研究报告2024年58页

24. 2024年OpenAI最新大模型o1革新进展突出表现及领域推进作用分析报告

25. 【新书】通用人工智能，144页

26. 联合国：《未来契约》、《全球数字契约》和《子孙后代问题宣言》三合一

27. 世界气候组织：2024团结在科学中，守卫地球系统的未来

28. 世界经济论坛《量子技术助力社会发展：实现可持续发展目标》研究报告

29. 人工智能科学家：迈向全自动开放式科学发现

30. 欧盟：石墨烯旗舰项目十年评估报告

31. 美国信息技术和创新基金会：美国的数字身份之路研究报告

32. 麦肯锡：2024能源转型挑战未来研究报告

33. 联合国贸易与发展会议：2024世界投资报告

34. 兰德：评估人工智能对国家安全和公共安全的影响

35. 兰德：2024评估人工智能基础模型市场的自然垄断条件

36. 经合组织：2015-2022 年生物多样性与发展融资

37. ITIF：中国半导体创新能力研究报告

38. 英国皇家学会：数学未来计划，数学和数据教育的新方法研究报告

39. 欧盟：10年人类大脑计划创新评估报告

40. GLG格理集团：2024深度解读半导体行业关键趋势和专家洞见报告15页

41. 华为智能世界2030报告2024版741页

42. 联合国：2024为人类治理人工智能最终报告

43. 达信Marsh：2024全球科技产业风险研究报告英文版27页

44. 鼎帷咨询：2024英伟达人工智能发展战略研究报告149页

45. 【博士论文】大语言模型的测试与评价：准确性、无害性和公平性，223页pdf

46. 麦肯锡：2024世界能源产业展望

47. 世界经济论坛《太空：全球经济增长的 1.8 万亿美元机遇》

48. 世界经济论坛：世界“技术先锋”名单100家公司名单

49. 世界经济论坛：2024绘制地球观测的未来：气候情报技术创新

50. 核聚变技术作为清洁能源供应替代来源的全球发展和准备情况

51. 大模型生成的idea新颖性与人类对比研究报告（94页）

52. IQM ：2024 年量子状况报告

53. 2024十大新兴技术研究报告

54. 2024地球观测 (EO) 洞察带来的全球价值（58页）

55. 2023-2024世界基础设施监测报告

56. 世界银行：2024世界发展报告，中等收入陷阱

57. 2024国际前沿人工智能安全科学报告132页

58. 斯坦福大学2024人工智能指数报告

59. 美国总统科学技术顾问委员会：《利用人工智能应对全球挑战》63页报告

60. 柳叶刀行星健康：2024地球系统安全与健康评估报告

61. 中国未来50年产业发展趋势白皮书III

62. OpenAI o1系列产品原理与安全最新研究报告（80页）

63. 国家互联网信息办公室：国家信息化发展报告2023年110页

64. 埃森哲：2024年风险研究报告-重大颠覆需要持续重塑英文版39页

65. 36氪研究院：2024年中国城市低空经济发展指数报告41页

66. 美国信息技术与创新基金会：《中国在量子领域的创新能力如何》研究报告

67. 理解深度学习500页报告

68. 鼎帷咨询：2024全球人工智能发展研究报告44页

69. 【伯克利博士论文】大型语言模型迈向能够学习和发现一切的机器

70. 《量子技术：前景、危险和可能性》45页报告

71. 英国皇家学会报告：人工智能在科学、技术、工程和数学领域的应用

72. 未来今日研究所：2024世界技趋势报告（980页）

73. 面向大规模脉冲神经网络：全面综述与未来方向

74. 大模型+知识库市场全景报告

75. 《太空力量的理论基础：从经济学到不对称战争》2024最新94页报告

76. CBInsights：2024年第二季度全球企业风险投资状况报告英文版124页

77. 英国科学院：数据管理和使用：21 世纪的治理（2024），99页

78. 兰德智库：展望2045 一项前瞻性研究探讨未来 20 年全球趋势的影响

79. 世界知识产权组织：2024年世界知识产权报告：让创新政策促进发展

80. 全球灾难风险研究所：评估大型语言模型接管灾难的风险

81. 牛津马丁学院：人工智能风险国际科学评估的未来

82. 联合国贸易和发展署：2024世界投资报告

83. 兰德公司：人工智能军事应用的新风险和机遇

84. 英国皇家学会：AI时代的科学发展趋势研究报告

85. 百页风电行业研究方法论：从中国到世界从陆地到海洋-240902，98页

86. 中国信通院发布《大模型落地路线图研究报告（2024年）》

87. 星河智源：2024年无人驾驶技术全景报告35页

88. 星河智源：2024年光刻机技术全景报告37页

89. 人形机器人行业研究方法论：特斯拉领衔人形机器人的从1到N

90. 兰德：展望2045一项关于未来20年全球趋势影响的前瞻性研究报告英文版45页

91. 《军事创新与气候挑战》2024最新152页报告

92. 麦肯锡：2024困难点：驾驭能源转型的物理现实（196页）

93. 《麻省理工科技评论》万字长文：什么是人工智能？

94. 软件与服务行业：从特斯拉智能驾驶看人形机器人发展路径

95. 中国信通院：中国数字经济发展研究报告2024年82页

96. CB Insights：2024年第二季度全球风险投资状况报告 244页

97. 脑启发的人工智能：全面综述

98. 二十年关键技术跟踪报告

99. 中国首部城市大脑系列建设标准（8项）汇编

100. 麦肯锡2024技术趋势展望报告100页

上下滑动查看更多

玩酷网

复旦大学：2024大语言模型的能力边界与发展思考报告

人工智能电子侃