郑纬民在第四届海丝中央法务区论坛分议题四上的主旨演讲

清朗天空 2024-09-22 12:21:09

构建智能算力平台

服务数字政法应用

郑纬民

中国工程院院士、清华大学教授

近几年,人工智能技术有两项显著的突破。首先是基础大模型进入了多模态阶段——不仅可以处理文字,还可以处理图像、视频等不同形式的数据。其次是大模型逐步进入应用阶段,越来越多的大模型开始结合各个行业,比如金融、医疗、智能制造、气象等领域,帮助提升行业效率和智能化水平。

大模型的五个生命周期阶段

大模型的整个生命周期可以分为五个重要阶段:

1. 数据获取

数据是大模型的基础,获取数据的过程非常重要。数据来源可以是全球各地的网站、平台等,不仅限于文字,图片、视频等也是重要的数据来源。数据获取过程中主要有两个挑战:首先,获取到的往往是多模态的数据,不仅仅是文字信息;其次,数据量庞大,虽然单个文件通常很小,但数量可能达到数十亿个。管理、存储这些数据并能够高效读取,是数据获取中的一个重要难题。

2. 数据预处理

数据获取后,不能直接用于训练,必须经过预处理。这是为了提升数据的质量,确保训练结果更加准确。数据预处理通常包括剔除重复、无效或干扰数据(如广告等)。根据统计,大模型训练中约有一半的时间都用于数据预处理,这也是一个耗时且复杂的过程。

3. 模型训练

模型训练是大模型构建的核心阶段,它需要海量的算力支持。训练时间长、成本高,需要大量的硬件资源。一个典型的大模型可能需要上万个GPU同时工作,持续训练数月,才能完成模型的构建。

4. 模型微调

基础大模型训练完成后,它仍然需要进行微调,才能适应特定行业的应用需求。比如,一个通用的大模型在应用于司法机关时,还需要结合政法的专有数据进行微调,才能更好地理解和处理法律案件。微调后的模型可以更精准地服务法院,医疗、金融等行业也需要类似的微调过程。

5. 模型推理

经过训练和微调的大模型,最终需要投入实际使用,这就是模型推理阶段。推理阶段是模型应用的过程,需要硬件、存储等资源的支撑,也是大模型带来实际价值的关键阶段。

大模型训练的挑战与国产化发展

在整个大模型的构建过程中,算力是最核心的资源,尤其是依赖于高性能的GPU系统。目前主流的训练系统仍然依赖于英伟达的GPU,尽管其硬件性能强大且编程生态成熟,但由于国际形势的限制,获取这些资源变得愈加困难。这也加速了国内AI算力的本地化发展。国家计划到2025年实现国产算力占比50%,到2030年几乎完全国产化。目前,北京、上海、江苏等地已经开始推动国产算力的应用。

然而,国产算力面临的主要挑战是软件生态的建设。虽然我们在硬件上取得了一定进展,但与英伟达等国外系统相比,国产系统的软件生态还不够完善,移植难度大,用户体验较差。因此,提升国产智能算力平台的软硬件生态至关重要。

为了解决这个问题,清华大学开发了一个叫做“八卦炉”的核心基础软件系统,专门为国产芯片和大模型训练优化。通过这个系统,训练成本可以大幅降低。在青岛的超级计算机上,我们利用八卦炉系统进行大模型训练,成本只有英伟达系统的六分之一,性能却接近甚至超过国外系统。

智能算力平台的应用案例

我们已经在多个国产平台上成功应用了八卦炉系统,包括沐曦、摩尔芯片等国内厂商。测试表明,使用八卦炉后,训练效率提升了30%,意味着可以减少30%的硬件投入。这不仅节省了成本,还提高了模型训练的整体效率。此外,在推理阶段,通过优化存储和算力调度,八卦炉也显著提升了推理性能,使存储资源得到更高效的利用。

人工智能与政法应用的结合

在数字政法领域,人工智能大有可为。政法系统是一个典型的需要处理大量数据的领域,过去几十年积累了海量的案件数据。这些数据不仅丰富,还包含了许多标注和注释,非常适合用来训练大模型。通过大模型的辅助,司法机关处理案件的效率可以大幅提升。

举一个在别的行业的例子。在中日友好医院,医生使用大模型辅助超声波检查,模型可以迅速判断肿瘤的良性或恶性,水平甚至超过普通医生。

同样,在司法机关中,拥有大量历史案件的大模型,也可以辅助法官处理新案件,提高判决的准确性。当然,人工智能不能完全取代法官的专业判断,它只是一个辅助工具,法官的作用仍然不可替代。

总结

人工智能大模型在司法和社会治理领域具有广阔的应用前景。要推动这项技术的发展,构建国产智能算力平台尤为重要,特别是在当前国际形势下,我们必须依靠自主创新和本地化发展。同时,软件生态的建设是提升国产算力平台竞争力的关键。清华大学的八卦炉系统正是在这一方向上迈出了重要的一步。

来源:海丝中央法务区

责编:黄慧儿

审核:方琮 高奇

■即将开幕!他们献上寄语

■海丝扬帆 法治护航

■厦门:解锁海丝中央法务区建设密码

0 阅读:1