构建智能算力平台
服务数字政法应用
郑纬民
中国工程院院士、清华大学教授
近几年,人工智能技术有两项显著的突破。首先是基础大模型进入了多模态阶段——不仅可以处理文字,还可以处理图像、视频等不同形式的数据。其次是大模型逐步进入应用阶段,越来越多的大模型开始结合各个行业,比如金融、医疗、智能制造、气象等领域,帮助提升行业效率和智能化水平。
大模型的五个生命周期阶段大模型的整个生命周期可以分为五个重要阶段:
1. 数据获取
数据是大模型的基础,获取数据的过程非常重要。数据来源可以是全球各地的网站、平台等,不仅限于文字,图片、视频等也是重要的数据来源。数据获取过程中主要有两个挑战:首先,获取到的往往是多模态的数据,不仅仅是文字信息;其次,数据量庞大,虽然单个文件通常很小,但数量可能达到数十亿个。管理、存储这些数据并能够高效读取,是数据获取中的一个重要难题。
2. 数据预处理
数据获取后,不能直接用于训练,必须经过预处理。这是为了提升数据的质量,确保训练结果更加准确。数据预处理通常包括剔除重复、无效或干扰数据(如广告等)。根据统计,大模型训练中约有一半的时间都用于数据预处理,这也是一个耗时且复杂的过程。
3. 模型训练
模型训练是大模型构建的核心阶段,它需要海量的算力支持。训练时间长、成本高,需要大量的硬件资源。一个典型的大模型可能需要上万个GPU同时工作,持续训练数月,才能完成模型的构建。
4. 模型微调
基础大模型训练完成后,它仍然需要进行微调,才能适应特定行业的应用需求。比如,一个通用的大模型在应用于司法机关时,还需要结合政法的专有数据进行微调,才能更好地理解和处理法律案件。微调后的模型可以更精准地服务法院,医疗、金融等行业也需要类似的微调过程。
5. 模型推理
经过训练和微调的大模型,最终需要投入实际使用,这就是模型推理阶段。推理阶段是模型应用的过程,需要硬件、存储等资源的支撑,也是大模型带来实际价值的关键阶段。
大模型训练的挑战与国产化发展在整个大模型的构建过程中,算力是最核心的资源,尤其是依赖于高性能的GPU系统。目前主流的训练系统仍然依赖于英伟达的GPU,尽管其硬件性能强大且编程生态成熟,但由于国际形势的限制,获取这些资源变得愈加困难。这也加速了国内AI算力的本地化发展。国家计划到2025年实现国产算力占比50%,到2030年几乎完全国产化。目前,北京、上海、江苏等地已经开始推动国产算力的应用。
然而,国产算力面临的主要挑战是软件生态的建设。虽然我们在硬件上取得了一定进展,但与英伟达等国外系统相比,国产系统的软件生态还不够完善,移植难度大,用户体验较差。因此,提升国产智能算力平台的软硬件生态至关重要。
为了解决这个问题,清华大学开发了一个叫做“八卦炉”的核心基础软件系统,专门为国产芯片和大模型训练优化。通过这个系统,训练成本可以大幅降低。在青岛的超级计算机上,我们利用八卦炉系统进行大模型训练,成本只有英伟达系统的六分之一,性能却接近甚至超过国外系统。
智能算力平台的应用案例我们已经在多个国产平台上成功应用了八卦炉系统,包括沐曦、摩尔芯片等国内厂商。测试表明,使用八卦炉后,训练效率提升了30%,意味着可以减少30%的硬件投入。这不仅节省了成本,还提高了模型训练的整体效率。此外,在推理阶段,通过优化存储和算力调度,八卦炉也显著提升了推理性能,使存储资源得到更高效的利用。
人工智能与政法应用的结合在数字政法领域,人工智能大有可为。政法系统是一个典型的需要处理大量数据的领域,过去几十年积累了海量的案件数据。这些数据不仅丰富,还包含了许多标注和注释,非常适合用来训练大模型。通过大模型的辅助,司法机关处理案件的效率可以大幅提升。
举一个在别的行业的例子。在中日友好医院,医生使用大模型辅助超声波检查,模型可以迅速判断肿瘤的良性或恶性,水平甚至超过普通医生。
同样,在司法机关中,拥有大量历史案件的大模型,也可以辅助法官处理新案件,提高判决的准确性。当然,人工智能不能完全取代法官的专业判断,它只是一个辅助工具,法官的作用仍然不可替代。
总结人工智能大模型在司法和社会治理领域具有广阔的应用前景。要推动这项技术的发展,构建国产智能算力平台尤为重要,特别是在当前国际形势下,我们必须依靠自主创新和本地化发展。同时,软件生态的建设是提升国产算力平台竞争力的关键。清华大学的八卦炉系统正是在这一方向上迈出了重要的一步。
来源:海丝中央法务区
责编:黄慧儿
审核:方琮 高奇
■即将开幕!他们献上寄语
■海丝扬帆 法治护航
■厦门:解锁海丝中央法务区建设密码