“如果无法就使用模型的概念达成一致,团队将无可避免地出现分歧。”
---Frederick P. Brooks
本文整理了业界关于AI大模型专业术语的缩略语,英文全名和中文解释。本文持续更新,建议收藏。
AI大模型术语Abbreviations
缩略语
Full spelling
英文全名
Chinese explanation
中文解释
通用人工智能
Artificial General Intelligence(AGI)
通用人工智能是指一种具备类似于人类的智能水平和能力的人工智能系统。通用人工智能的目标是可以像人类一样在各种任务和领域上理解和处理自然语言,进行复杂推理和逻辑判断,具备创造性和创新能力,并能在新的环境和任务中进行自主决策和行动。
弱人工智能(狭义人工智能)
Artificial Narrow Intelligence(ANI)
狭义人工智能指的是可以在特定任务或者领域上展示出高度智能化的人工智能系统。不同于通用人工智能,狭义人工智能更聚焦于解决特定问题或执行特定任务。如机器翻译,图像分类,推荐系统等都是狭义人工智能。
模型
Model
模型是对现实世界或某个系统的抽象表示。在NLP中,模型是一种计算机程序,通过学习数据中的模式和规律,可以进行文本处理、生成、分类等任务。
基础模型
Foundation Models
这些基础模型通常是通过大规模的数据进行预训练,以理解和学习语言、图像或其他类型数据的模式和结构,然后在这个预训练模型的基础上,进行下游任务的微调,以完成特定的 AI 任务。
语言模型
Language Model
语言模型是一种统计模型,用于衡量一段文本序列在自然语言中出现的概率。它通过学习语言中的规则和上下文关系,可以用于自动文本生成、机器翻译等任务。
大语言模型
Large Language Model
大语言模型是指具有大规模参数和能力的语言模型。LLM通常通过大规模的预训练数据和计算资源进行训练,具有更强的语言理解和生成能力。
参数
Parameters
参数是模型中可以调整的变量,用于控制模型的行为和输出结果。在训练过程中,模型通过调整参数的值来最小化损失函数,并提高模型的性能。
损失函数
Loss Function
损失函数是衡量模型预测结果与真实标签之间差异的函数。模型的目标是最小化损失函数的值,以使预测结果与标签尽可能接近。
生成模型
Generative Model
生成模型是一种可以生成新样本的模型。它通过学习数据的分布和模式,可以生成符合原始数据特征的新样本。
Transformer模型
Transformer Model
Transformer模型是一种基于自注意力机制的神经网络模型,用于处理序列数据。它在NLP领域中被广泛应用于机器翻译、文本摘要等任务,并成为大型语言模型的基础架构。
预训练
Pre-training
预训练是指在大规模数据集上进行初始模型训练的过程。通过预训练,模型可以学习到数据中的模式和结构,为后续的特定任务微调提供基础。
微调
Fine-tuning
微调是在预训练模型的基础上,使用特定任务的数据进行进一步训练的过程。通过微调,模型可以根据具体任务的要求进行调整,提高性能和适应性。
上下文
Context
在NLP中,上下文中一般指的是一段语言周围的环境,背景,或相关信息。上下文可以是局部的,例如一个词语的前面和后面的数个词语,也可以是广泛的,比如一段对话的前后多轮对话,以及交流的背景等。
上下文学习
In-context learning
是一种让模型根据其当前接收到的输入信息(即上下文信息)来调整其行为的学习方式。这是一种在线学习策略,因为模型是在运行时进行学习和调整的,而不是仅仅在初始训练期间。
无监督学习
Unsupervised Learning
无监督学习是一种机器学习的方法,其中训练数据没有标签或类别信息。模型通过学习数据中的内在结构和模式,进行聚类、降维、生成等任务。
自监督学习
Self-Supervised Learning
自监督学习是一种无监督学习的方法,通过设计一种任务,利用数据自身的结构进行训练。模型通过解决自己生成的标签任务来学习有用的特征表示,然后可以在其他任务上进行迁移学习。
迁移学习
Transfer Learning
迁移学习是一种利用已经训练好的模型在新任务上进行学习的方法。通过迁移学习,模型可以将之前学习到的知识和特征应用于新的任务,加快训练过程、提高性能。
监督学习
Supervised Learning
监督学习是一种机器学习的方法,其中训练数据包含输入样本和相应的标签或类别信息。模型通过学习输入和标签之间的关系,进行预测和分类任务。
强化学习
Reinforcement Learning
强化学习是一种机器学习的方法,用于训练智能体在与环境交互的过程中,通过尝试和错误来学习最优的行为策略。模型根据环境给出的奖励和惩罚来调整自己的行动。
深度学习
Deep Learning
深度学习是一种机器学习的方法,基于人工神经网络模型,通过多层非线性变换来学习和提取数据的特征表示。深度学习在NLP领域中被广泛应用于语言模型、文本分类、机器翻译等任务。
自然语言处理
Natural Language Processing (NLP)
自然语言处理是一门研究人类语言与计算机之间交互的学科。它涉及对文本数据进行处理、分析、理解和生成的技术和方法。
损失函数
Loss Function
损失函数是衡量模型预测结果与真实标签之间差异的函数。模型的目标是最小化损失函数的值,以使预测结果与标签尽可能接近。
优化算法
Optimization Algorithm
优化算法是用于调整模型参数以最小化损失函数的算法。常见的优化算法包括梯度下降、Adam等,它们通过迭代更新参数的方式来使模型逐步优化。
梯度
Gradient
梯度是损失函数关于模型参数的偏导数。它表示损失函数随参数变化的速率和方向,可以指导优化算法调整参数以达到最优解。
梯度下降
Gradient Descent
梯度下降是一种优化算法,用于更新模型参数以最小化损失函数。它根据梯度的方向和大小,沿着损失函数下降最快的方向调整参数值。
梯度消失
Gradient Vanishing
梯度消失是指在反向传播过程中,梯度值逐渐减小并趋近于零的现象。梯度消失可能导致模型无法有效更新参数,影响模型的训练和性能。
梯度爆炸
Gradient Explosion
梯度爆炸是指在反向传播过程中,梯度值逐渐增大并趋近于无穷大的现象。梯度爆炸可能导致数值不稳定和训练不收敛的问题。
标识符
Token
Token是文本中的最小单元,可以是单词、标点或词语等。在NLP中,文本经过分词后会被切分成多个Token,作为模型输入的基本单位。GPT 100 tokens ~= 75 words。
分词
Tokenization
分词是将连续的文本序列切分成离散的Token的过程。在NLP中,分词是文本预处理的重要步骤,为后续的文本处理和建模提供基础。
词嵌入
Token Embedding/
Word Embedding
词元嵌入是将文本中的Token映射为向量表示的技术。通过词元嵌入,可以捕捉Token之间的语义和上下文信息,用于训练和表示文本数据。词元嵌入是通过预训练的方式得到的。在训练过程中,模型会学习到词元之间的关联性和语义特征,将具有相似语义的词元映射到相近的向量空间中。
词向量维度
Word Vector Dimension
通过Word embedding,我们可以将词语映射到一个多维空间中,其中每个维度就是词向量维度,代表了词的某种语义或语法特征。例如,每个维度可以表示词的情感极性、词性等特征。因此,词向量维度的数量决定了模型能够捕捉到的词的特征多样性和细节程度。
语料
Corpus
语料是指用于训练和研究的大规模文本数据集合。语料可以包括书籍、新闻文章、社交媒体数据等,用于构建和评估NLP模型。语料库中的文本通常是未标记的,也就是说它们没有预先标记的标签或标记。
标签
Label
标签是训练数据中与输入样本对应的输出或类别信息。在监督学习中,模型通过学习输入样本和标签之间的关系,进行预测和分类任务。
训练集/
验证集/
测试集/
Training Set/ Validation Set/
Test Set
训练集是用于模型训练的数据集合。它包含了一组已经标注好的输入样本和相应的标签,用于模型的参数优化和学习。在训练过程中,模型通过训练集来学习输入样本和标签之间的关系,调整模型的参数以使预测结果与标签尽可能接近。
验证集是用于模型选择和调优的数据集合。它是从训练集中分割出来的一部分数据,用于在训练过程中对模型进行评估和验证。验证集的主要作用是帮助选择最佳的模型超参数,例如学习率、正则化参数等,并进行模型选择和调整,以获得更好的性能。通过在验证集上进行验证,可以对模型进行中间评估,及时发现问题和调整模型,避免过拟合和欠拟合的情况。
测试集是用于评估训练好的模型性能的数据集合。它包含了一组已经标注好的输入样本和相应的标签,用于模型在未知数据上的预测和泛化能力的测试。通过使用测试集,可以衡量模型在真实场景下的准确性和效果,并评估其是否能够很好地推广到新样本。
三种数据集并无交集,举个不恰当的比喻来说明3种数据集之间的关系:
训练集相当于上课学知识
验证集相当于课后的练习题,用来纠正和强化学到的知识
测试集相当于期末考试,用来最终评估学习效果
提示
Prompt
提示是在生成模型中给定的初始文本或问题,用于引导模型生成相应的回答或补全文本的任务。
提示工程
Prompt Engineering
提示工程是通过设计和调整提示的方式来改善生成模型的性能和输出结果。通过合理的提示设计,可以引导模型生成符合预期的文本或答案。
一般情况下,我们可以将提示分为 4 部分:
• 指令:表示你想让大型语言模型完成的任务。
• 输出要求:表示你对大型语言模型输出的要求。
• 上下文背景:一些需要给到大型语言模型的外部信息,例如单样本,少样本学习中的示例。
• 问题:需要大型语言模型回答的具体问题。
指令微调
Instruction Fine-tuning
指令微调是一种微调方法,通过在训练数据中加入指令文本的方式,指导模型生成特定的文本输出。在指令微调中,将一段特定的指令文本与需要生成的目标文本一起输入模型,并通过最小化生成文本与指令文本的差异来训练模型。
一个指令微调的基本流程:
1. 准备自然语言指令集:针对特定任务,准备一组自然语言指令,描述任务类型和任务目标,例如情感分类任务的指令可以是“该文本的情感是正面的还是负面的?”。
2. 准备训练数据集:针对特定任务,准备一个标记化的数据集,其中每个数据样本都包含输入文本和标签,例如情感分类任务的标签可以是“正面”或“负面”。
3. 将自然语言指令和数据集转换为模型输入:将自然语言指令和数据集转换为模型输入,例如对于情感分类任务,将自然语言指令和文本拼接作为输入,例如:“该文本的情感是正面的还是负面的?这家餐厅的食物很好吃。”
4. 在指令上进行微调:在指令上进行微调,以适应特定任务的需求,提高模型在任务上的性能。
思维链
Chain of Thought
“思维链”是一个广泛的概念,通常用来描述思考过程中的逻辑链接和推理过程。它可能涉及到观察、问题、假设、推理、评估和决策等多个步骤。每一个步骤都依赖于前一个步骤,形成一种链式的结构。
思维链 (Chain-of-thought,CoT) 提示,是指令示范的一种特殊情况,它通过引发对话代理的逐步推理来生成输出。使用 CoT 微调的模型使用带有逐步推理的人工标注的指令数据集。这是 Let’s think step by step 这一著名提示的由来。
编码器
Encoder
编码器是一种神经网络结构,用于将输入序列转化为一种高维表示。在NLP中,编码器可以将文本序列编码为词嵌入或句子向量,用于后续的任务处理。
解码器
Decoder
解码器是一种神经网络结构,用于将编码器生成的中间表示转化为目标序列或生成输出。在NLP中,解码器常用于机器翻译和文本生成等任务中。
泛化
Generalization
泛化是指模型在未见过的数据上表现良好的能力。一个好的模型应该具有较好的泛化能力,可以适应新样本并产生准确的预测结果。
鲁棒性
Robustness
鲁棒性指的是模型对于异常情况,噪声,扰动或攻击的稳健性和抵抗力。在NLP中,通常指的是在面对不完美的文本输入时仍能保持良好的性能和能力,比如输入的文本中存在语法错误、拼写错误、错别字、干扰词等。
过拟合
Overfitting
是指在训练模型时,模型在训练数据上表现得过于优秀,但在未见过的新数据上表现较差的现象。过拟合通常发生在模型过于复杂或训练数据有限的情况下。
欠拟合
Underfitting
拟合是指模型在训练数据和新数据上都表现较差的现象。欠拟合通常是由于模型过于复杂或训练数据不足导致的,模型无法很好地捕捉数据中的特征和模式。
灾难性遗忘Catastrophic Forgetting
在LLM中的灾难性遗忘通常指的是在训练过程中的灾难性遗忘。指的是当一个已经训练好的模型在学习新任务或者新数据的时候,会忘记自己之前已经学习到的知识。这种遗忘会导致模型在新任务上的性能不佳,甚至无法保持之前任务的准确性。
灾难性遗忘发生的主要原因一般是在执行新任务训练的时候,原有的模型参数和权重被大幅度调整,导致模型中原有的知识和标识被破坏或覆盖,进而丧失对先前任务的记忆和泛化能力。
零样本
Zero-shot
Zero-shot指的是在模型训练阶段没有接触过特定任务的样本,但在使用阶段能够对该任务进行预测或处理。换句话说,模型可以从先前学习的知识和推理能力中推断出对新任务的处理方式,而无需在新任务上进行额外的训练。
一样本
One-shot
One-shot指的是在模型使用阶段,仅仅在输入prompt中提供一个样本的情况下,模型能够推断出对新任务的处理方式,而无需在新任务上进行额外的训练。
少样本
Few-shot
Few-shot指的是在模型使用阶段,仅仅在输入prompt中提供少数几个样本的情况下,模型能够推断出对新任务的处理方式,而无需在新任务上进行额外的训练。
多模态
Multimodal
多模态是指涉及多种不同媒体类型(如文本、图像、语音等)的数据和信息。多模态学习旨在处理和融合多种媒体类型的数据,以提取更丰富的特征和进行更全面的分析。
涌现能力
Emergent Capability
涌现能力是指大模型在预训练和微调过程中,通过学习大规模语料库中的知识和模式,当模型的参数和训练语料的规模大到一定程度,突破一个临界值,在某些任务上的效果突然急剧增长。而在规模小于这个临界值的时候,模型基本不具备解决这些任务的能力。
自掩码
Self-Masking
自掩码是指在预训练过程中,将输入序列中的一部分词元遮盖或隐藏起来,让模型通过上下文来预测这些被遮盖的词元。自掩码可以帮助模型学习语言的连续性和上下文关系。
调参
Hyperparameter Tuning
调参是指通过调整模型中的超参数(如学习率、正则化参数等)来优化模型的性能。通过合理的调参,可以提高模型的准确性和泛化能力。
学习率
Learning Rate
学习率是梯度下降算法中控制参数更新步长的参数。学习率决定了每次迭代中模型参数的调整幅度,过高的学习率可能导致不稳定的训练,而过低的学习率可能导致收敛缓慢。
收敛
Convergence
收敛是指模型在训练过程中逐渐达到稳定状态的过程。当模型的损失函数或性能指标不再明显变化时,可以认为模型已经收敛,停止训练。
批次
Batch
批次是指在训练过程中一次性输入模型的一组样本的数量。通过使用批次训练,可以提高计算效率,并使模型更新更稳定。
反向传播
Backpropagation
反向传播是一种用于计算神经网络中梯度的方法。通过从损失函数开始,逐层计算各个参数对损失的贡献,然后利用梯度下降算法来更新参数。
注意力机制
Attention Mechanism
注意力机制是一种机制,用于在序列数据中分配不同权重的注意力。它可以帮助模型集中注意力在关键的序列部分,提高对重要信息的处理能力。
工作记忆
working memory
通常用于描述系统在处理信息时能够临时存储和操纵的信息的能力。在AI中,工作记忆的概念可以应用于各种上下文和模型。例如,在神经网络中,某些类型的网络(如循环神经网络或长短期记忆网络)具有内置的“记忆”机制,可以在一段时间内维护并操作信息。这种记忆机制能使网络处理序列数据,如时间序列或自然语言。
向量数据库
Vector Database
向量数据库是一种特殊类型的数据库,用于存储和处理大量的向量数据。向量数据可以是来自对于文本、语音、图像、视频等资源通过一定的算法向量化后的数据,例如文本数据可以通过Token Embedding的方式转换为向量数据。向量数据库在很多领域都有应用,特别是在机器学习和人工智能领域。譬如可以用向量数据库实现间接的长期记忆。