Sora不能引导我们走向通用人工智能

什么是AGI

AGI 是通用人工智能（Artificial General Intelligence）的缩写，是指能够像人类一样理解和推理的智能机器。AGI 可以执行任何人类可以执行的任务，包括学习、解决问题、规划和决策。

AGI 与目前的人工智能有很大不同。目前的人工智能通常是专门为特定任务设计的，例如图像识别或语音识别。它们无法像人类一样泛化到新的任务。AGI 则可以学习任何任务，并且可以像人类一样进行推理和决策。

深度学习是曲线拟合的一种美化形式

如果目标是伪造生成文本或视频的能力，那么能够预测下一个标记/帧是件好事，但不会产生对世界的深刻理解，正如 GPT-4 等 SOTA 模型无法可靠地进行任何严肃的推理所证明的那样。OpenAI最新的文本到视频模型Sora也是如此，尽管经过大量视频的训练，但它无法了解物理的基本定律。这些模型擅长生成类似人类的文本和视频，方法是根据它们经过训练的大量数据集预测下一个标记或帧。然而，它们的能力不应被误认为是实现通用人工智能（AGI）的途径。

我们无法通过预训练模型实现 AGI。像人类一样，AGI如果可以实现，就必须能够连续、自主地学习。我目前没有看到任何架构提出或使这成为可能。

深度学习的核心是在大型数据集上训练模型，以识别模式并根据这些模式进行预测。这个过程通常被比作曲线拟合，它允许模型生成令人印象深刻的连贯文本和视频内容。然而，重要的是要明白这个过程并不等同于理解或推理。模型不了解它们生成的内容;他们只是复制他们接受过训练的模式。

推理和理解的局限性

对包括 GPT-4 和 Sora 在内的当前最先进的（SOTA）模型最重要的批评之一是它们缺乏可靠的推理能力。尽管这些模型在生成内容方面具有先进的能力，但它们在需要理解基本原理（例如物理定律）的任务中遇到了困难。这种局限性凸显了模式识别和真正理解之间的根本差距。

例如，GPT-4 可能会写出一篇关于量子力学的令人信服的文章，但它并不像物理学家那样“理解”量子力学。同样，Sora 可以创建逼真的视频，这些视频会有违背了基本物理定律的地方，因为它优先考虑视觉连贯性而不是事实准确性。生成内容和理解内容之间的这种差异正是我们当今所知的「人工智能」和「通用人工智能」概念之间的区别。

对AGI的追求

实现AGI——在广泛的任务和领域中匹配或超过人类认知能力的智能——仍然是一个遥远的目标。目前在海量数据集上预训练模型并针对特定任务对其进行微调的方法在AGI所需的几个关键领域存在不足：

持续学习：与人类不同，人类一生都在不断学习，适应新的信息和环境，人工智能模型一旦经过训练，通常是静态的。他们缺乏自主学习的能力，而无需人类进行再训练或更新。自主性和主动性：人类智能的特点是能够设定目标、制定计划和采取行动。当前的 AI 模型不具备这些功能;他们在编程和训练执行任务的范围内运作。理解和推理：为了实现AGI，模型不仅需要处理信息，还需要以一种允许推理、解决问题和创新的方式理解信息。这种理解水平超越了模式识别，需要一种根本不同的人工智能开发方法。还需要不断探索

当前模型的局限性凸显了人工智能研究对新范式的需求。虽然下一个标记/帧预测模型在生成类似人类的文本和视频方面取得了重大进展，但它们代表了通往AGI之路的垫脚石，而不是最终目的地。

研究必须探索允许持续、自主学习和开发能够真正理解和推理的模型的架构。这可能涉及将不同类型的学习（例如无监督学习、强化学习和符号推理）整合到一个反映人类认知复杂性的有凝聚力的框架中。

总之，虽然深度学习和下一个标记/帧预测模型在人工智能领域取得了非凡的成就，但它们仍未达到实现AGI的要求。迈向AGI的旅程是复杂而多舛的，不仅需要在模型的训练方式上取得突破，还需要在我们对智能本身的基本理解上取得突破。

玩酷网

Sora不能引导我们走向通用人工智能

云计算分享者