九卦IAI大模型发展图景及商业银行布局前瞻

作者 | BanTech智库焦卢玲

来源 | BanTech

随着AI大模型的深化发展，将逐步推动AI走向AGI，使人工智能成为人类历史上第26个通用目的技术，推动经济社会及千行百业发生巨大变革。但目前AI大模型仅处于发展的初期阶段，通往AGI的路上依然面临数据、算力、算法、行业壁垒、黑盒模型的潜在风险性和安全性问题等多重挑战……“道阻且长，行则将至；行而不辍，未来可期”。

随着人工智能技术的迅猛发展，AI创新应用模式持续涌现，2022年11月OpenAI推出的对话式通用人工智能工具ChatGPT正式上线，标志着人工智能技术的发展迈入了全新阶段。随着ChatGPT的蹿红，一时间，人工智能大模型技术迅速成为国内外关注的热点。从国外的谷歌、微软、英伟达，到国内的华为、阿里、百度、京东等大型企业，均在不遗余力布局AI大模型……AI大模型或将成为新一轮科技革命和产业革命的重要驱动力量，超级AI算力+大模型算法正在成为国家和产业战略核心竞争力。

2023年以来，国内多家厂商发布通用大模型和金融行业通用模型，应用于客服、营销、运营、风控等业务主战场中，掀起了一场新的大模型风暴。纵观各类型主体机构推出的大模型，以及AI大模型在金融领域的应用现状，舆论场中的跑马圈地已然结束，下一步如何推进大模型走深向实，进一步深耕数据、算法、算力等，让人工智能切实更好地赋能行业数智转型，成为有待业界持续探索的重要课题。

基于上述背景，本文在厘清人工智能及相关创新模式的概念、发展脉络的基础上，着重对AI大模型的特点、类型进行梳理，并围绕我国AI大模型当前发展图景，商业银行布局AI大模型的“三大路径”，以及商业银行AI大模型应用的可期前景、现实挑战、未来趋势等进行前瞻性探讨和分析。以期更加客观地呈现我国AI大模型发展及其在银行业的应用概况、所处发展阶段和未来深化发展过程中有待突破的关键方向等，以资行业参考。

一、厘清概念——AI、机器学习、深度学习、大模型&AI大模型、生成式AI&AIGC、GPT&ChatGPT、AGI等

机器学习、深度学习、AI大模型、生成式AI和GPT等作为AI创新的不同模式，亦代表着人工智能在发展历程中的不同阶段，因此在着重分析AI大模型发展及其在银行业的创新布局前本章先对不同概念的定义及其之间的联系和区别进行概括、梳理。

AI，即人工智能（Artificial Intelligence, AI），它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学，旨在使机器具备像人类一样的推理、学习、问题解决和决策能力。

机器学习

机器学习（Machine Learning，ML）是人工智能的一个分支，它是通过数据和统计模型来让机器自动学习和改进的一种方法。机器学习的目标是设计和开发算法，使计算机系统能够从数据中学习，而无需明确地编程。通过训练模型，机器学习使机器能够识别模式、做出预测和进行决策。

深度学习

深度学习（Deep Learning，DL）是机器学习的一个特定领域，它利用人工神经网络模型进行学习和训练。深度学习模型由多个层次（称为“神经网络”的层）组成，每一层都会对输入数据进行变换和表示。这些网络层通过一系列的非线性转换将输入数据映射到输出结果。深度学习模型的核心是深度神经网络（Deep Neural Network，DNN），它可以通过大量的标记数据进行训练，从而实现高度准确的预测和分类任务。

大模型 & AI大模型

大模型（Large-scale models）是指模型具有庞大的参数规模和复杂程度的机器学习模型。随着深度学习模型在各个领域的成功应用，学者们开始思考如何将其扩大至更大的规模，超大规模深度学习模型应运而生。在深度学习领域，大模型通常是指具有数百万到数十亿参数的神经网络模型。这些模型需要大量的计算资源和存储空间来训练和存储，并且往往需要进行分布式计算和特殊的硬件加速技术。

当前，AI正在从大量训练模型，到训练大模型转变，以期让AI模型具有泛化能力，能够让AI真正地走向通用且实用。因此，当前被广泛研究及探讨的AI大模型则是“人工智能预训练大模型（AI Pre-Training Large-scale models）”的简称，是指由大量数据和算法训练出来的模型，它们能够处理大规模数据并具有更加精准的预测和决策能力，是实现人工智能商业化的关键。其可以在大规模宽泛的数据上进行训练后适应一系列下游任务的模型，即通过将海量数据导入具有几亿量级甚至十万亿量级参数的模型中，学习样本数据中的内在规律和表达层次，最终被训练成具有逻辑推理和分析能力的人工智能。换言之，AI大模型包括了两层含义，一层是“预训练”，另一层是“大模型”，两者相结合产生了一种新的人工智能模式，即模型在大规模数据集上完成了预训练后无需或仅需要少量数据的微调，即可直接支撑各类应用，因此也被有关AI专家命名为“Foundation Models”。

2023年6月，百度智能云李扬在黑马AIGC产业营上从人工智能的技术维度上对大模型的诠释则能很清晰地阐释大模型的发展脉络，如图1所示。

图1 大模型发展脉络阐释图

图1中可看到，从AI到我们目前所熟知的预训练大预言模型（如ChatGPT和文心一言等大模型产品）有着一条清晰的技术衍生路径，如下所示：

人工智能＞机器学习＞深度学习＞深度学习模型＞预训练模型＞预训练大模型＞预训练大语言模型

生成式AI & AIGC

生成式AI（Generative AI）是人工智能的一个分支，也被称为生成人类智能，是指能够模拟人类智能生成新的、真实的、有用的信息的AI技术。这种技术通过学习大量的数据，能够生成与现实世界类似的新图像、音频、视频等。例如，生成式AI可以用于艺术创作、文本生成、音乐制作等领域。生成式AI不是根据给定的规则或数据生成输出，而是自主生成全新内容，类似于人类的创造。生成式AI的基本原理是使用概率模型或神经网络模型，将已有数据的结构和规律学习到模型中，并基于这些结构和规律生成新的数据。

AIGC（AI Generated Content），即人工智能生成内容，是一种基于生成式AI技术的全新应用。它指的是由人工智能生成的符合用户需求和偏好的内容，这种内容可以是文本、图像、音频、视频等各种形式。具体来说，AIGC利用生成式AI的技术，通过学习用户的行为、偏好和需求，能够生成符合用户喜好的内容。因此，AIGC可以被看作是生成式AI的一种应用。例如，根据用户的浏览历史和购买记录，AIGC可以生成个性化的推荐列表，或者根据用户的语言风格和语义，生成与之匹配的广告文案。

GPT & ChatGPT

GPT（Generative Pre-trained Transformer），即“生成预训练转换器”，是一种基于Transformer模型架构的神经网络模型，为ChatGPT等生成式人工智能应用程序提供支持的人工智能的一项关键进展，由OpenAI开发。它通过预训练模型来学习大规模的文本数据，然后可以生成自然流畅的文本内容。GPT在各种自然语言处理任务中表现出色，如对话生成、文本摘要等。GPT专注于理解和生成人类语言，是AIGC领域的一个子集。GPT-4是该系列模型的最新版，能够在接受特定指令后创作出高质量的，与人类撰写无异的文章。

ChatGPT是Open AI旗下的文字生成类AI, 由于ChatGPT的迅速蹿红, 所以被大众言必称ChatGPT。ChatGPT的竞争对手包括国外的Google Bard，以及国内百度的文心一言、阿里的通义千问等。

AGI

AGI（Artificial General Intelligence），即通用人工智能，也称强人工智能（Strong AI），指的是具备与人类同等甚至超越人类的智能，能表现出正常人类所具有的所有智能行为。与目前的弱人工智能不同，AGI是一种能够像人类一样进行思考、学习和解决问题的智能系统，它可以理解和应对各种不同的情境，并能够自主地学习和适应新的环境。AGI是人工智能领域的最终目标，也是一项极具挑战性的任务。在诸多技术（深度学习、高性能计算、大模型训练以及GPT等）的加持下，AGI的实现正在逐步向前推进。

总结来说，大模型是一种技术手段，可以用来构建各种类型的机器学习模型，其中包括生成式语言模型如GPT。AIGC是生成式AI的一种范畴，涵盖了各种生成式人工智能的应用和技术。与此同时，相比于小模型数据有限、能力有瓶颈，定制化、碎片化情况严重，以及缺乏规模化复制和涌现能力，AI大模型则具备多个场景通用、泛化和规模化复制等诸多优势，被视为是实现AGI的重要方向。

综上，AI、机器学习、深度学习、AI大模型、生成式AI和ChatGPT 的关系如图2所示。

图2 AI及各种衍生概念的关系示意图

二、AI大模型的特点及类型

AI大模型作为当前行业研究及人工智能创新应用的焦点，以及未来驱动行业发生颠覆性创新的关键动力源，其具有以下主要特点和类型。

AI大模型的特点

一是通用性：通用目的技术（General Purpose Technology，GPT）是对人类经济社会产生巨大、深远而广泛影响的革命性技术，如轮子、印刷、内燃机、电力、计算机、互联网等。随着AI大模型的深化发展将逐步推动AI走向AGI，使人工智能成为人类历史上第26个通用目的技术，推动经济社会及千行百业发生巨大变革。

二是高壁垒性：AI大模型是技术、资本、人才密集型产业，其核心技术壁垒是数据、算法、算力等要素资源，因此，大数据、大模型、大算力决定了AI大模型竞争的高壁垒性。可以预见，未来基础大模型或将呈现国内外各有数个赢家的头部企业竞争格局。

三是边际成本递减性：AI大模型的研发因其对算法、算力、数据、人才等的高要求，导致其需要较高的研发成本，但其未来在行业中的应用极易产生规模效应，因此，随着AI大模型通用能力的增强，应用边界及场景的进一步扩大，AI大模型的边际成本将逐步递减，从而使得AI大模型可以更好惠及千行百业的智能升级。

四是强泛化能力：AI大模型兼具“大规模”和“预训练”两种属性，通过在大规模数据上进行训练，从大量的数据中学习到广泛的特征和规律，且能够在未学习过、未见过的数据上仍然有较高的预测准确性，同样表现良好，具备强大的泛化能力。

五是迁移学习能力：AI大模型在一个或多个领域上进行预训练，并能够将学到的知识迁移到新任务或新领域中。这种迁移学习能力使得模型在新任务上的学习速度更快，同时也提高了模型在未知领域中的性能。

六是参数规模庞大：更多的参数意味着更高的表达能力，能够更准确地模拟和学习数据的分布规律。因此，AI大模型通常具有数以亿计甚至上万亿个参数，使其具备了强大的学习能力和分析能力。

七是深度结构复杂：AI大模型通常采用深度神经网络，具有多层堆叠的结构。这种复杂的结构可以帮助模型提取复杂特征，从而更好地理解和处理数据。

八是多模态处理能力：大模型可以处理多种不同类型的数据，如图像、文本、语音等。它能够实现跨领域的学习和推理，为跨模态任务提供更全面的解决方案。当前，AI大模型正向多模态不断演进，从最开始的只学习文本数据到联合学习文本和图像，现在可以处理文本、图像、语音等多模态数据，未来将会有更多类型数据的大模型不断涌现，持续为实现人工智能通用化提供有益探索。

九是数据利用率高：AI大模型可以利用海量的未标注数据来进行预训练，而不需要依赖于少量的标注数据。这样，AI大模型可以充分挖掘数据中的信息和价值，也可以避免标注数据的不足或不准确所带来的影响。

AI大模型的类型

围绕参数规模、工作方式、数据模态、开发模式四个维度，AI大模型可分为以下主要类型：

（1）从参数规模上看，可分为十亿大模型、百亿大模型、千亿大模型、万亿大模型

AI大模型一般指参数规模到达亿级以上的深度学习模型。大模型作为一种复杂的类似人脑的神经网络，一般来说其参数规模越大，可容纳的知识越多，能力就越强。比如GPT-1为上亿规模的参数量，数据集使用了1万本书的BookCorpus，25亿单词量；GPT-2参数量达到了15亿规模；GPT-3模型数据量更是超过百亿。因此，从参数规模来看，AI大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段，参数量实现了从亿级到万亿级的突破，数据量极大。

十亿大模型只具备简单的识别分析能力，用于文本分类、文本相似度等简单任务。

百亿大模型具备一定的文本生成和通用能力，能处理逻辑推理简单、难度相对较低的文章摘要生成、闲聊等任务，难以处理逻辑复杂、专业性强的任务。

千亿大模型“存储空间”更大，不容易出现信息遗忘，可以学习海量数据，并具备较强的逻辑推理和生成能力，相较于百亿大模型，千亿大模型在知识问答、阅读理解、逻辑推理、文章撰写等逻辑推理复杂、专业性强的任务上有了显著提升。

万亿大模型因算力消耗极大，短期内难以进行商业推广应用。

千亿大模型则平衡了百亿和万亿大模型优势，相较于百亿大模型，数据“记忆”能力更强，具备更强的逻辑推理和生成能力；相较于万亿大模型，性价比优势明显。因此，千亿大模型成为近几年发展及研究应用的重点。

（2）从模型工作方式上看，可分为强化学习模型和生成模型

强化学习模型是一种机器学习模型，该类模型包含的关键要素有环境、状态、行动、奖励、策略、值函数和学习算法，其训练过程通过与环境的交互来不断调整策略和值函数，以最大化累积奖励。模型通过试错和反馈机制来学习，并在不断的探索和利用中提高性能。强化学习模型常用于处理序贯决策问题，如机器人控制、游戏玩法优化等。典型的强化学习模型如Deep Q-Network（DQN）和Proximal Policy Optimization（PPO）等。

生成模型是一种机器学习模型，旨在学习数据的分布，用于生成新的数据样本，这些样本与训练数据具有相似的分布。即通过学习训练数据中的统计规律和潜在结构，能够生成具有类似特征的新数据，从而能够模拟和生成与原始数据相似的样本，具有一定的创造性和应用潜力。生成模型可以用于多种任务，如图像生成、文本生成、音频生成等。代表性的生成模型包括生成对抗网络（GAN）和变分自编码器（VAE）。

（3）从数据模态上看，可分为单模态大模型和多模态大模型

模态是指数据表达的形态，通常包括文本、图像、音频、视频等。大模型根据支持不同数据模态的数量，可分为单模态和多模态大模型。

单模态大模型可以是处理文本的自然语言大模型、处理图像的视觉大模型等。

多模态大模型可以同时处理图像、文本、视频、音频等多种数据类型，目前较为成熟的如用于以文生图或以图生文的多模态大模型。

因此，AI大模型从仅支持图片、图像、文本、语音单一模态下的单一任务，正逐渐发展为可支持多种模态下的多种任务。例如，OpenAI的GPT-4模型就包括复杂的推理能力、高级编码能力、多种学术学习能力、可媲美人类水平表现的能力等，是第一个可以同时接受文本和图像作为输入的多模态模型。当前，单模态的自然语言大模型因其较强的理解能力、便捷的交互方式等因素，成为近期发展重点。未来，随着AI大模型向多模态逐步演进，将会有更多语言、更多类型数据的大模型不断涌现，加快推动人工智能通用化进程。

（4）从模型开发模式上看，可分为开源大模型和在线大模型

开源大模型是基于开源软件许可协议发布的大型深度学习模型。通常由研究者、开发者或社区共同开发和维护，并在公开的代码库中提供。优点是可以免费获取和使用，开放的代码使得用户可以自由地查看、修改和定制模型，以适应特定的需求和任务。开源大模型也促进了学术界和业界之间的知识共享和合作。代表模型有Transformers、BERT、ChatGLM等。

在线大模型是指部署在云端或网络上的大型机器学习或深度学习模型。这些模型通常由云服务提供商或在线平台提供，并通过接口或API的方式进行访问和使用。在线大模型的优点是用户无需关注底层的硬件和软件架构，只需通过网络请求即可获得模型的预测结果。在线大模型还可以实现实时或按需的模型调用，适用于各种应用场景，如语音识别、图像处理和自然语言处理等。

总之，开源大模型和在线大模型都是为了提供大规模机器学习或深度学习模型的访问和使用。开源大模型强调了代码的开放性和自由性，而在线大模型则提供了方便、快速和按需的模型服务。

三、我国AI大模型当前发展图景概览

当前，AI大模型创新已经成为全球科技竞争的“高地”，我国众多科技巨头、高校和科研院所、人工智能创新和创业公司等均积极开展对AI大模型的研发，整个AI行业呈现出百花齐放的竞争格局。目前，大模型参数规模最高可达百万亿级别，数据集达到TB量级，且面向多模态场景的大模型已成为趋势，大模型生态已初具规模。

AI大模型创新呈现“领军派、学院派、创新派”三足鼎立格局

目前，国内迅速掀起一股大模型创新浪潮，并呈现三足鼎立格局：

一是以百度、阿里、腾讯、京东等为代表的互联网领军企业纷纷推出文心一言、通义千问、混元、言犀等具有较强影响力的大模型产品。

二是以清华大学、复旦大学、中科院等高校及科研院所为代表的学院派，或联合第三方科技公司，或自研发布大模型产品ChatGLM、MOSS、紫东太初等。

三是以科大讯飞、实在智能、澜舟科技、MiniMax等为代表的人工智能创新、创业公司也相继推出自身的大模型产品讯飞星火认知、TARS（塔斯）、孟子、Glow等。

此外，传统行业企业，如中国农业银行推出ChatABC，并将逐步推进AI大模型在营销、风控、客服等领域的探索和试点应用；中国移动发布“九天·海算政务大模型”和“九天·客服大模型”两款行业大模型……国内大模型浪潮持续高涨，已建立起涵盖理论方法和软硬件技术的体系化研发能力，并形成了算法研发、产品应用的产业生态链。

技术升级驱动AI大模型应用场景不断扩大

作为人工智能产业的重要组成部分，我国AI大模型的技术水平得到了不断提升。目前，国内AI大模型已经涵盖了语音、图像、自然语言处理等多个领域，在为企业提供更加智能化的服务的同时，进一步驱动了行业的智慧升级。

随着技术的不断升级，国内AI大模型的应用场景也在逐步扩大。目前，AI大模型已经应用于金融、医疗、教育、交通等多个行业，改变着传统行业的发展方式，助力生产效率的提升。2023年以来，多家厂商发布通用大模型和金融行业大模型，应用于客服、营销、运营、风控等业务主战场中，掀起了一场全新的大模型风暴。未来国内AI大模型市场将保持高速增长态势。

国内AI大模型与国际领先水平仍存在代际差距

我国AI大模型目前虽已具有一定基础，但AI大模型的深化发展离不开多项技术的融合创新，在前沿基础理论和算法上，我国与国际领先水平仍存在代际差距。从算法生态层面，目前最优秀的大模型是OpenAI的GPT-4，其是一个多模态大模型，在很多领域的专业和学术基准上表现出人类水平。从应用层面，微软依托投资GPT4红利，已在搜索、办公、安全等传统领域推出智能化产品，而国内大模型在应用层面尚处于起步阶段，有待进一步持续探索。

国内AI大模型产品集锦

Chat-GPT问世以来，使得大模型一时间内火爆非凡。国内外各大科技公司也纷纷加入到大模型的研发行列中来，开始开发迭代AI大模型，“百模之战”愈演愈烈，国内百度、阿里、华为等科技领军企业纷纷利用自身在数据、算法、算力等方面的优势提前布局并构建自己的NLP、CV、多模态系列大模型平台，科研院所纷纷贡献智慧，新锐科技公司也不甘落后……一时间，国产大模型如雨后春笋般涌现，目前不少产品已经进入内测阶段，商业应用落地进一步提速。国内最新的代表性AI大模型产品汇总见表1。

表1 国内最新代表性AI大模型产品汇总

注：表1中资料由BanTech智库根据公开报道资料及各家公司官网整理汇总得出；表中仅列示国内不同类型企业及科研院所的代表性AI大模型产品，非当前市场全部产品。

四、商业银行布局AI大模型的“三大路径”

自2022年11月ChatGPT正式发布以来，AI大模型及其各类应用产品也进入蓬勃发展期，人工智能已步入“大模型时代”。AI大模型技术的应用正在加速千行百业的智能化转型，作为拥有海量金融数据且应用场景丰富的银行业，也正加快AI大模型的布局及研发进程，积极试水AI大模型在各业务领域和场景下的应用。

目前来看，商业银行布局AI大模型主要通过“自主研发”、“基于行业基础大模型构建专属大模型”以及“按需接入各类大模型API或私有化部署”三种方式。

方式一：自主研发方式

对于数据量庞大，科技基础坚实，AI创新能力体系较完善的金融机构，选择自主研发方式布局AI大模型，实现全栈AI技术的自主可控成为领先商业银行布局大模型创新应用的有效路径之一。

以农业银行为例：2023年3月31日，农业银行推出金融行业首个自主创新的金融AI大模型应用ChatABC。

ChatABC依托农业银行人工智能服务体系的算力、算法、数据、人才四位一体的基础能力，重点着眼于大模型在金融领域的知识理解能力、内容生成能力以及安全问答能力，对大模型精调、提示工程、知识增强、检索增强、人类反馈的强化学习（RLHF）等大模型相关新技术进行了深入探索和综合应用，结合农业银行研发支持知识库、内部问答数据以及人工标注数据等金融知识进行融合训练调优，实现了全方位的金融知识理解和问答应用，同时实现了全栈AI技术的自主可控。1.0版本ChatABC大模型拥有百亿级参数，可初步具备自由闲聊、行内知识问答、内容摘要等多类型任务的服务能力，已在行内多个渠道以多轮问答助手、工单自动化回复助手等形式面向内部员工开放试用，并可通过MaaS（Model as a Service）方式面向其他场景提供一站式决策辅助服务，未来将逐步形成大模型服务生态。

据了解，多年来农业银行AI研发团队深入贯彻落实数字化转型战略，始终保持对于AI新技术的跟踪和探索，全面推进全栈自主的人工智能服务平台建设，持续探索构建适应AI大模型的算力、数据、模型、工具、应用五位一体的AI大模型创新应用体系，提升大模型试点应用的水平。依托五位一体的AI创新能力体系，农业银行AI团队从2020年已开启大模型相关技术研究和试点应用，例如应用BERT（参数量约1亿）构建企业舆情的识别模型，实现舆情内容的抽取分析和情感分类；应用CBNet-v2模型（参数量约4.5亿）构建智慧畜牧的牛只识别大模型，实现对牛只的精准像素级分割、定位和计数等。

方式二：基于行业基础大模型构建专属大模型

企业的大模型应用需要综合考虑行业专业性、数据安全、持续迭代和综合成本等多重因素。一方面，构建企业专属基础大模型对算力、算法、数据、人才等基础能力具有较高的要求，且建设周期长、成本高；另一方面，通用大模型虽具有较强的通识能力，但缺少金融专业知识，在金融场景应用有限，并不能解决多数企业的具体问题。因此，对于拥有海量金融数据，应用场景丰富的大型银行金融机构而言，基于业界领先的基础大模型自建金融企业大模型，或通过微调形成契合自身需求的任务大模型等成为其布局AI大模型，以及提升金融行业通用模型的规模化赋能能力的另一有效路径。

以工商银行为例：2023年3月17日，工商银行发布基于昇腾AI的金融行业通用模型，率先实现了企业级金融通用模型的研制投产。

目前，工商银行金融行业通用模型已被创新应用于客户服务、风险防控、运营管理等多个业务领域，取得了良好的应用效果。其中，在客户服务领域，工商银行应用该模型支撑智能客服接听客户来电，显著提升了对客户来电诉求和情绪的识别准确率，能够更精准有效地响应客户需求，并可大幅缩减维护成本；在风险防控领域，工商银行实现了对工业工程融资项目建设的进度监测，监测精准度提升约10%，研发周期缩短约60%；在运营管理领域，模型的应用帮助智能提取期限、利率等信贷审批书核心要素，提升了信贷审批效率。

据了解，为更好支持大模型发展，昇腾AI与产业界一起构建了从规划、开发到产业化的大模型全流程使能体系。此次与工商银行的合作，是昇腾AI大模型全流程使能体系在金融领域的一次成功尝试。

方式三：按需接入各类大模型API或私有化部署

当前业界推出的各类大模型在自然语言处理、对话系统、机器翻译、摘要生成、问题解答、文本分类等领域有广泛的应用，为用户提供了强大的语言交互和智能化的服务。然而，构建和训练这些大模型需要大量的计算资源和数据，因此通常由大型研究机构或公司进行开发和维护。而中小银行金融机构由于数据量有限、科技基础薄弱、人才匮乏等因素，自行研发或基于行业基础大模型构建专属大模型的方式并非最优选。因此，综合考虑投入产出性价比，按需引入各类大模型的API或私有化部署服务，或将成为该类型银行更为高效的赋能途径。此外，大模型的广泛接入，有望解决目前金融科技定制化服务成本高以及客户需求变化速度快等存在于银行数字化改革进程中的问题，成为快速赋能业务、提高运营效率的有效途径之一。

以百度智能云面向企业客户开放文心一言API接口调用服务为例：2023年3月，百度率先发布了新一代大语言模型“文心一言”，成为国内第一家正式推出的对标ChatGPT的产品。随后，百信银行、新网银行、邮储银行、兴业银行以及中信银行等先后宣布接入百度“文心一言”，成为生态合作伙伴。

其中，百信银行将把百度领先的智能对话技术成果应用在数字金融、AI数字人、数字营业厅等领域；新网银行将把领先的智能对话技术成果应用在数字普惠金融领域；邮储银行通过“邮储大脑”接入并应用“文心一言”的能力，将打造更为丰富、个性化的智能金融产品，提供更智能更有温度的普惠金融服务；兴业银行携手百度推进前沿人机对话AI技术在金融场景的应用，持续提升服务智能化水平；中信银行将接入“文心一言”，将百度领先的智能对话技术成果应用在财富管理领域，提供有温度的财富管理服务。

据了解，自3月16日起，百度智能云正式面向企业客户开放“文心一言”API接口调用服务预约。搜索“百度智能云”进入官网，可申请加入“文心一言”云服务测试。目前，“文心一言”可以通过API接口和SDK工具两种方式进行接入：API接口是一种标准的网络接口，可以通过HTTP请求调用“文心一言”的各种功能；SDK工具则是一种更方便的开发工具，可以在应用程序中直接使用“文心一言”的功能。

总之，契合当前AI大模型快速发展的趋势，金融机构需结合自身实际，以及技术和场景等来选择最高效的AI大模型布局方式，以为自身创新发展赋能增效，切实提升智能交互体验和客户服务质量、提高数据处理和决策效率、增强风险预测和控制能力等，助力行业数智升级。

五、商业银行AI大模型应用的趋势前瞻及挑战分析

随着AI大模型技术的逐步升级和市场需求的不断扩大，未来AI大模型市场规模将进一步扩大。同时，国内大数据和云计算等技术的快速发展也为AI大模型的应用提供了广阔的空间……AI大模型的风口已然到来。

拥有领先的数据基础设施、海量的高质量数据，以及丰富的应用场景，为AI大模型的深度融合提供了良好的基础条件，使得银行业成为AI创新应用的前沿阵地。可以预见，未来AI大模型能力还将迎来进一步突破，这将为银行业前中后台各环节带来新一轮的变革与创新，充分赋能银行业数智化转型。但整体而言，目前AI大模型的发展尚处于初期阶段，大模型的规模化应用依然面临着算力算法、成本投入、安全可信、服务质量、人才储备等方面的一系列现实挑战，加之商业银行数字化能力储备不足等多重因素的综合影响下，短期内AI大模型或无法产生颠覆性创新效应。

AI大模型将创新赋能银行前中后台各环节

金融行业生产和处理大量数据，而AI大模型尤其是基于深度学习大模型，擅长处理这类数据密集的环境，这种能力对智能营销获客、个性化推荐、智能投顾、市场预期、风险评估、欺诈检测、智能客服等方面至关重要。因此，随着AI大模型在银行业的深度融合应用，将重塑银行业的前中后台业务流程，包括但不限于以下领域及场景：

一是在助力精准决策方面，金融数据通常包含复杂的模式，人工智能模型在处理复杂模式方面具有独特优势，可更好应对数据中的高噪音、高维度和非线性等特征，从而帮助金融机构识别市场趋势，做出精准决策。此外，大型人工智能模型能够在短时间内高效地处理和分析大规模的金融数据，使金融机构能够迅速应对市场变化，识别异常情况等。

二是在强化智能交互方面，通过配备机器人客服将金融知识及产品相关信息一条条添加到知识库里，尽管“喂养”了很多数据，也无法避免机器人回答的机械化和非准确性，识别能力的有限性使机器人客服更多只能充当协助人工客服的角色。而大模型本身具备大量通用知识，除了金融常识外，对于其他特殊内容，可以通过知识注入的方式给到大模型，并且通过持续、充分的训练，能够使大模型具备更加精准的语义理解能力和强大自然的语言生成能力，从而使大模型成为懂金融的“专家”。因此，AI大模型通过分析海量客户数据，可以个性化服务、预测客户需求，并提供量身定制的建议，从而助力金融机构提升客户服务质量。同时，在客服场景中，大模型有助于提升复杂问题解决率，优化人机交互体验。

三是在提升贷前风险评估质效方面，AI大模型可以提高风险评估的效率和准确性。大模型的能力包括深度学习和自然语言处理等技术，这使其能够处理和理解大规模的信息，从而进一步提升贷前风险评估精确度，使金融机构在更加明智地做出贷款决策的同时，强化风险防控效能。

四是在增强欺诈检测能力方面，AI大模型可极大地增强欺诈检测能力，其可以分析和理解大量的结构化和非结构化数据，因此能够识别出隐藏在庞大数据集中的欺诈行为和异常模式，并持续改进欺诈检测的准确性和效率，从而使商业银行能够及时发现欺诈行为，减少金融损失并保护用户利益。

五是在夯实金融创新底座方面，未来AI大模型将成为智能科技底座的标配，大幅降低智能技术应用的门槛，只需少量标注数据甚至无需调整就可以让智能技术覆盖广泛的场景。此外，还可基于大模型代码生成、代码识别与检测、代码转自然语言等能力构建基于大模型的智能研发体系等。

AI大模型的规模化应用存在一系列现实挑战

从当前行业应用来看，大模型已在包括智能营销获客、个性化推荐、风险管理、智能客服等金融场景进行了初步尝试，并取得了一定成效，激起了全行业布局AI大模型的浪潮。但AI大模型及其在金融行业的应用整体尚处于初期阶段，未来的深化发展及规模化应用仍有大量难题待突破。具体来说，未来在银行体系内规模化应用AI大模型依然面临如下一系列现实挑战：

（1）数据挑战

数据之于AI大模型是重要的生产资料，高质量的数据更是驱动算法持续迭代的养分，AI大模型未来在银行业的规模化融合应用仍面临诸多数据挑战。

一是高质量数据的充足性问题。数据是AI的战略资源，大模型需要大规模的数据集进行训练，数据的多样性和广泛性对于模型的性能提升至关重要。从目前自然语言领域发展的趋势来看，模型参数越大，所具备的能力才能越强，模型参数的量级正在接近人类神经元连接数。

一方面，充足的高质量数据是训练一个强大的大语言模型的前提。例如，OpenAI训练GPT-3（1750亿参数），使用了包含接近500B tokens（1B=10亿）的高质量语料，Google训练PaLM（5400亿参数），消耗了780B tokens。

另一方面，足够多的高质量语料可以帮助同等规模的模型学习到更强的能力，Google和DeepMind分别使用了1.56T（1T=1万亿）和1.4T tokens来训练更小的LaMDA (1370亿参数)和Chinchilla（700亿参数），这些模型的能力大幅超过更大参数的模型。因此，数据之于大模型的重要性从这些真实数字中可见一斑。

二是数据挖掘能力的提升。数据制约着模型效果的上限，要训练出性能好的大模型，必然需要大量高质量数据的支撑。因此，应用人工智能技术要有良好的数据获取、储存、加工能力。金融行业虽天然拥有海量数据优势，为算法提供了发挥作用的有力基础，但数据挖掘能力还有待进一步提升。具体来讲，金融机构的数据挖掘能力，体现在以数据为基础，通过各种数据处理手段以充分利用数据。如果可以对自身拥有的数据做好深入的加工、探索和分析，并运用相应的算法发掘其潜在价值，将有助于提升各个业务领域的响应速度和效率，进一步为AI大模型的融合应用打好数据基础。

三是数据安全问题。AI大模型的训练需要大量的数据，但是数据的安全更是大力发展AI大模型过程中无法避开的关键挑战。因此，未来需要加强数据的标准化和安全化管理，建立完善的数据安全保障机制。

（2）算力挑战

算力之于AI大模型是核心生产力，也是提高数据处理、算法训练的速度与规模的关键制约因素。训练大模型需要庞大的计算集群和高性能的硬件设备。随着模型规模的增加，所需的算力也会相应增加。目前AI大模型，尤其是深度学习模型，面临着多方面的算力挑战：

一是对计算资源需求问题，AI大模型需要大量的计算资源进行训练和推理，这些模型通常有数十亿甚至数百亿个参数，需要大量的计算能力来处理，这对硬件设备（如GPU、TPU等）和计算平台的性能要求非常高。伴随着大模型参数和数据量的提升，其对算力的要求也不断提高，以1750亿参数的GPT-3为例，每生成一次1000字回答，所需算力资源约为4PFLOP/s，随着未来大模型的普及应用，访问量与参数加速提升，其算力需求将呈指数级增长。但我国目前正遭遇美国的高端GPU芯片的出口禁令，同时华为、寒武纪、壁仞科技等国内算力芯片领先企业也被美国列入实体清单，大模型算力需求难以满足。

二是内存和存储限制，AI大模型需要大量的内存和存储空间来存储参数、梯度和中间计算结果，这对硬件设备的存储和内存容量提出了很高的要求，同时也增加了数据传输和通信的压力。

三是并行计算和分布式训练问题，为了应对AI大模型的计算挑战，研究人员通常采用并行计算和分布式训练的方法，然而这些方法在实现上也存在一定挑战，例如，如何有效地划分任务、协调各个计算节点的通信和同步等，否则一旦数据同步出现问题，大量计算工作就会功亏一篑。

此外，AI大模型还面临长期运行的能耗、软件和硬件协同优化、多厂商异构算力融合等多方面的挑战。

（3）算法挑战

算法是处理数据信息的规则与方式，被视为模型效果的基础。前沿的算法离不开优秀的人才团队，可以说算法方面的能力取决于团队水平。目前国内外的大模型算法顶尖人才水平接近，人才梯队略有差距。国内主要的顶尖团队有：杭州阿里巴巴达摩院以周靖人领衔的顶级AI技术研发团队，清华北大以姚班、图灵班为首的AI团队，深圳粤港澳大湾区数字经济研究院以沈向洋院士领衔的AI团队（代表技术为“封神榜”大模型及Grounded-SAM视觉大模型）。此外，百度、腾讯、华为、商汤等科技企业也聚集了大量顶尖人才。据悉，北京创新工场董事长李开复亲自筹建的大模型创业项目Project AI 2.0也正大力吸引海外人才归国加入。

但值得关注的是，未来国内外的人才差距将有可能随着算力差距逐渐显现并呈指数级扩大。强大的算力基础设施是集聚并留住人才，以及缩小人才差距的根本支撑，更是自主培养大批顶尖科技人才团队的基础。基于AI是溢出带动性极强的行业，届时不仅是AI行业相关的人才，其他被赋能行业的人才也将逐渐向具备算力科研基础设施优势的地区集聚，地区间的算力差距将会快速转化为人才的差距，进而转化为教育水平和技术水平的差距，且随着科技发展相对应的差距也会随之逐步扩大。

（4）黑盒模型应用的风险性和安全性等问题

积极布局AI大模型已成当前商业银行推动智能转型的重要一环，而大模型基于概率推理，难以保障结果知识的准确性。比如，ChatGPT生成大量看起来合乎逻辑，但内容可能并非真实甚至是捏造的事实，存在非法利用、造谣等安全隐患。同时，大模型作为一个黑盒模型，在模型公平、数据安全、隐私保护等方面的合规应用还需要持续探索。

而金融行业作为对风险管理和安全性要求极高的行业，天然对模型的可解释性和安全性要求也较高，因此，对于金融行业来说，大模型应用面临的信任风险、模型风险、安全性、伦理性、稳定性、准确性、数据安全、合规性等风险的挑战更加严峻，需要加强模型和算法风险管理制度及流程，规范技术应用。

（5）场景拓展难

场景应用是AI大模型发展的重要驱动力，而AI大模型作为一项新技术，涉及底层框架支撑、模型训练、数据收集标注、知识库构建等诸多难题，模型训练不收敛、数据质量差、标注成本高、场景发掘难等都将制约大模型的有效应用。同时，大模型进入金融业务场景，需要针对业务属性进行增量训练，以真正解决业务问题。因此，在合规前提下，推动AI大模型与金融场景的广泛融合，还需要持续不断地探索。

（6）多重行业壁垒有待打破

AI大模型的成功建立在“巨资+巨头+人才”的强势资源联合基础上，各类资源投入巨大。据测算，ChatGPT自建算力平台的固定成本约为8亿美元，训练1次耗时1个月，成本超过1200万美元。目前，OpenAI已累计投入40亿美元，并计划在未来几年增投100亿美元。同时，美国业界巨头也为ChatGPT提供了大量支持，如微软为ChatGPT提供了庞大的算力服务，马斯克曾推动OpenAI、特斯拉、SpaceX联合开展人工智能技术攻关，领英创始人霍夫曼帮助OpenAI网罗大量人才。此外，ChatGPT的成功亦得益于奥尔特曼、莎士科尔等天才人物的参与，以及一批具有斯坦福、哈佛、麻省理工等知名高校教育背景的精英人才……回顾ChatGPT的发展历程，巨资、巨头、人才缺一不可。

因此，当前我国大模型“赛道”虽有技术、资本、人才等资源正在快速涌入，企业、高校及科研机构紧密跟进，短时间内布局了一批大模型技术产品，但未来大模型能力的增强需产业各方在政策引导下积极打破行业壁垒所带来的大模型发展挑战，通力合作，促进AI大模型技术的深化发展和落地应用。与此同时，银行业亦要加快探索布局AI大模型的策略和实践，联合产业各方，提升大模型服务金融行业的能力。

（7）技术选型难

据了解，随着国内外的商业模型和开源模型快速发展，全球已发布数百个大模型，我国年内已发布80余个大模型产品，且持续向小型化、组件化方向发展。而综合考量训练成本、数据质量需求、技术壁垒及应用规模等，未来基础大模型很可能呈现寡头垄断市场格局，类似今天的云服务市场，这就在无形中提高了大模型技术选型的难度。

企业当前在选择基础大模型时，需着重关注相关大模型的几个关键指标：

一是普适性能，考量其是否能够很好地满足当前需求，并具备较好的泛化能力；

二是迭代速度，目前大模型的发展尚处于初期阶段，技术的迭代速度非常快，因此应从技术积累和研发投入的角度来评估其未来是否能快速迭代并不断提升；

三是相关工具链是否完备，无论是基于基础大模型构建行业大模型或是任务大模型，都将面临大量的工程化问题，如数据采集、数据标注、模型再训练、各种微调和插件等，一个完备的工具链将有助于企业轻松地将大型的模型能力应用到业务和产品中。

（8）长期监管趋严挑战

任何新鲜事物的产生和发展必然需要新的规则和制度与之相匹配。目前，在AI监管的相关法律文件中，主要存在“横向”监管与“纵向”监管两种主要方式。在横向监管方式中，监管机构将创建一个全面的法规，以尽可能涵盖AI可能产生的各方面影响；在纵向监管方式中，政策制定者采取“定制”的方法，针对不同应用或类型的AI制定不同的法规。

目前我国AI监管框架为纵向管理，国内AI监管在上位法形成的法律框架下多个部门规章接续出台，治理体系持续完善。目前我国对于生成式人工智能大模型的治理主要集中于内容管理、算法管理、数据管理以及知识产权等。内容管理方面，自2023年8月15日起施行的《生成式人工智能服务管理暂行办法》弱化了对生成内容真实性的要求，同时对于to B端备案需求或有所放松。算法方面，人工智能大模型的黑箱特征与安全评估要求并不匹配，官方审批备案节奏或呈现少量多批的特征。

而欧盟《AI法案》则采用横向监管模式，具体而言，该法案以风险分级的方式将所有AI系统纳入监管范围（特殊AI系统除外），并允许监管机构随着AI的发展不断将新的应用领域纳入现有的风险类别，而没有针对特定AI应用领域制定具体的法律规范。风险分级方式使法案整体处于相对灵活的状态，既能够保持横向监管方式具有的统一性和协调性，同时，相对灵活的分类标准也弥补了传统横向监管方式下对具体的AI应用场景针对性不高的问题，兼具法律的确定性与灵活性，使得相关监管措施更易落地。

目前来看，欧盟经验虽更适用于成熟的AI市场，国内短期或不会切换为横向监管模式。国内标志横向管理的《人工智能法》尚需等待应用落地以发现监管需求，或不会过快出台，但随着AI大模型的持续深化发展，欧盟的AI监管制度或被国内学习采纳。因此，长期来看，AI大模型的发展将面临监管趋严的挑战。

AI大模型短期内无法产生颠覆性创新效应

基于上述现实挑战，加之当前商业银行数字化能力储备普遍不足。因此，AI大模型短期内无法产生颠覆性创新效应。具体来看，目前大中型商业银行的数字化转型虽已向沉浸阶段迈进，但对于多数中小银行而言，其数字化转型仍处于起步或加速阶段，受限于数字化及金融科技等专业能力储备不足、转型成本高等，中小银行创新动能不足。

而全流程的数字化，正是金融机构引入AI大模型的前提。如果仍仅停留在工具层应用，大模型无法更好地赋能产业发展，更无法产生颠覆性创新效应……数字化能力储备不足成为制约AI大模型在商业银行规模化应用的关键因素。

随着AI大模型创新浪潮的持续奔涌，将逐步推动AI走向AGI，使人工智能成为人类历史上第26个通用目的技术，推动经济社会及千行百业发生巨大变革，也为商业银行未来的数智升级带来无限想象空间，AI大模型与银行业的深度融合将碰撞出怎样的磅礴动能，值得我们拭目以待！

但当前的AI大模型更多的仅是生成式AI，且国内AI大模型整体上尚处于初期发展阶段，相关产品还存在算法模型不成熟、高质量数据不足，成熟落地场景较少、生态系统不健全等突出问题。因此，未来，如何突破数据、算法、算力挑战以及黑盒模型应用带来的风险性和安全性等问题，如何打破行业壁垒、加强行业及产业间合作，如何加快推进AI大模型与物联网、云计算等前沿技术相结合，进一步推进AI大模型发展走深向实，向通用性人工智能大步迈进，切实成为推动银行业及整体经济社会向数智化演进的中坚“智动力”，有待业界各方持续、深入探索。

参考文献：

【1】云满笔记. AI、机器学习、大模型、生成式 AI 和安全[OL]. https://blog.csdn.net/wan212000/article/details/131667671,2023-07-11.

【2】中国农业银行人工智能研发团队.农业银行金融AI大模型产品ChatABC成功发布[OL].金融电子化，https://baijiahao.baidu.com/s?id=1761870088300256322&wfr=spider&for=pc, 2023-03-31.

【3】王昊.AI大模型发展遭遇数据危机，如何突破瓶颈？[OL].https://zhuanlan.zhihu.com/p/616754581,2023-03-24.

【4】吕仲涛.银行大模型应用的两条可行路径[OL].bank.hexun.com/2023-06-15/208973999.html，2023-06-15.

【5】AI大模型发展现状及对比分析——差距与挑战[OL].https://zhuanlan.zhihu.com/p/630045786,2023-05-17.

【6】杨帆.AI大模型政策：地方鼓励，中央规范，[OL].https://baijiahao.baidu.com/s?id=1772011664343770898&wfr=spider&for=pc,2023-07-21.

【7】麦道先生.AI大模型总体概述[OL].https://blog.csdn.net/crystal_csdn8/article/details/131529619,2023-07-22.

【8】新华三：全方位解决AI大模型时代算力挑战[OL]. ttps://baijiahao.baidu.com/s?id=1770480643117428058&wfr=spider&for=pc，2023-07-04.

玩酷网

九卦IAI大模型发展图景及商业银行布局前瞻

九卦金融圈