大模型国产化适配10-快速迁移大模型到昇腾910B保姆级教程(Pytorch版)
随着ChatGPT的火爆,AI大模型时代来临,但算力紧张。中美贸易战及美国制裁AI芯片,国产化势在必行。已有国产AI芯片和Mindformers框架,基于昇腾910训练大模型,使用MindIE实现大模型服务化。
本文介绍如何迅速将大型模型迁移到昇腾910B,许多入门者都是从斯坦福羊驼开始的。我们将利用羊驼的训练代码和数据集,快速在昇腾910B上训练baichuan2-7B/13B和qwen1.5-7B/14B这两个大型模型。之前的文章已经详细讲解了如何从零开始复现斯坦福羊驼(Stanford Alpaca 7B),因此本文不再赘述该过程。斯坦福羊驼的整体思路如下图所示:
准备工作操作系统版本/架构:EulerOS 2.0 (SP10)/aarch64NPU:8x 910B 64GPython:3.9NPU 驱动:24.1.rc1,NPU 固件:7.1.0.6.220,CANN 工具包:7.0.0,Pytorch及torch_npu插件:2.1.0,Docker镜像优化:ascend-mindspore 23.0.0-A2-ubuntu18.04,DeepSpeed:0.14.1,查询所有设备的基本信息。
> npu-smi info
+------------------------------------------------------------------------------------------------+
| npu-smi 24.1.rc1 Version: 24.1.rc1 |
+---------------------------+---------------+----------------------------------------------------+
| NPU Name | Health | Power(W) Temp(C) Hugepages-Usage(page)|
| Chip | Bus-Id | AICore(%) Memory-Usage(MB) HBM-Usage(MB) |
+===========================+===============+====================================================+
| 0 910B1 | OK | 95.7 36 0 / 0 |
| 0 | 0000:C1:00.0 | 0 0 / 0 3306 / 65536 |
+===========================+===============+====================================================+
| 1 910B1 | OK | 96.7 38 0 / 0 |
| 0 | 0000:01:00.0 | 0 0 / 0 3307 / 65536 |
+===========================+===============+====================================================+
| 2 910B1 | OK | 92.2 36 0 / 0 |
| 0 | 0000:C2:00.0 | 0 0 / 0 3307 / 65536 |
+===========================+===============+====================================================+
| 3 910B1 | OK | 96.2 37 0 / 0 |
| 0 | 0000:02:00.0 | 0 0 / 0 3306 / 65536 |
+===========================+===============+====================================================+
| 4 910B1 | OK | 92.2 36 0 / 0 |
| 0 | 0000:81:00.0 | 0 0 / 0 3307 / 65536 |
+===========================+===============+====================================================+
| 5 910B1 | OK | 98.7 37 0 / 0 |
| 0 | 0000:41:00.0 | 0 0 / 0 3307 / 65536 |
+===========================+===============+====================================================+
| 6 910B1 | OK | 95.3 36 0 / 0 |
| 0 | 0000:82:00.0 | 0 0 / 0 3306 / 65536 |
+===========================+===============+====================================================+
| 7 910B1 | OK | 94.6 39 0 / 0 |
| 0 | 0000:42:00.0 | 0 0 / 0 3305 / 65536 |
+===========================+===============+====================================================+
本次使用 Atlas 900 RCK A2 计算节点逻辑结构如下所示。
集成四路鲲鹏920处理器,每个处理器支持8个DDR4 DIMM。iBMC使用华为自研管理芯片,外出VGA、管理网口、调试串口等管理接口。集成8个昇腾910 AI处理器(NPU模组):每个NPU模组通过一路PCIe 4.0 x16与CPU主板对接。每个NPU模组出1*200GE,通过NPU模组本身自带高速Serdes接口完成。"NPU模组以七路双向56GB/s的HCCS提供带宽,八个模组Full Mesh连接,助力效能提升。"image.png通过以下命令来查询设备CPU和NPU的亲和性关系、多NPU之间的拓扑结构。
> npu-smi info -t topo
NPU0 NPU1 NPU2 NPU3 NPU4 NPU5 NPU6 NPU7 CPU Affinity
NPU0 X HCCS HCCS HCCS HCCS HCCS HCCS HCCS 144-167
NPU1 HCCS X HCCS HCCS HCCS HCCS HCCS HCCS 0-23
NPU2 HCCS HCCS X HCCS HCCS HCCS HCCS HCCS 144-167
NPU3 HCCS HCCS HCCS X HCCS HCCS HCCS HCCS 0-23
NPU4 HCCS HCCS HCCS HCCS X HCCS HCCS HCCS 96-119
NPU5 HCCS HCCS HCCS HCCS HCCS X HCCS HCCS 48-71
NPU6 HCCS HCCS HCCS HCCS HCCS HCCS X HCCS 96-119
NPU7 HCCS HCCS HCCS HCCS HCCS HCCS HCCS X 48-71
Legend:
X = Self
SYS = Path traversing PCIe and NUMA nodes. Nodes are connected through SMP, such as QPI, UPI.
PHB = Path traversing PCIe and the PCIe host bridge of a CPU.
PIX = Path traversing a single PCIe switch
PXB = Path traversing multipul PCIe switches
HCCS = Connection traversing HCCS.
NA = Unknown relationship.
参数说明:模型准备请下载baichuan2-7B/13B、qwen1.5-7B/14B大模型,由于访问HuggingfaceHub在国内不太友好,我们提供直接通过ModelScope下载的途径。
git lfs clone https://www.modelscope.cn/qwen/Qwen1.5-7B-Chat.git
git lfs clone https://www.modelscope.cn/qwen/Qwen1.5-14B-Chat.git
git lfs clone https://www.modelscope.cn/baichuan-inc/Baichuan2-7B-Chat.git
git lfs clone https://www.modelscope.cn/baichuan-inc/Baichuan2-13B-Chat.git
代码和数据集准备本文直接复用斯坦福羊驼的代码和数据集进行训练,预先下载代码。
"克隆tatsu-lab的stanford_alpaca仓库,使用git命令:https://github.com/tatsu-lab/stanford_alpaca.git"
环境准备从ascendhub镜像仓库下载镜像。
请使用以下命令登录华为云容器镜像服务:
```
docker login -u 157xxx4031 ascendhub.huawei.com
```
然后,拉取华为云公共镜像中的MindSpore 23.0.0-A2版本,适用于Ubuntu 18.04操作系统:
```
docker pull ascendhub.huawei.com/public-ascendhub/ascend-mindspore:23.0.0-A2-ubuntu18.04
```
创建容器并进入容器。
# docker rm -f pytorch_ubuntu_dev
docker run -it -u root \
--name pytorch_ubuntu_dev \
--network host \
-e ASCEND_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \
-v /etc/localtime:/etc/localtime \
-v /var/log/npu/:/usr/slog \
-v /usr/bin/hccn_tool:/usr/bin/hccn_tool \
-v /data/containerd/workspace/:/workspace \
ascendhub.huawei.com/public-ascendhub/ascend-mindspore:23.0.0-A2-ubuntu18.04 \
/bin/bash
# 启动容器
# docker start pytorch_ubuntu_dev
# 进入容器
# docker exec -it pytorch_ubuntu_dev bash
安装conda。
```
wget -c https://repo.anaconda.com/miniconda/Miniconda3-py39_24.4.0-0-Linux-aarch64.sh && \nbash Miniconda3-py39_24.4.0-0-Linux-aarch64.sh -p /workspace/installs/conda && \nsource ~/.bashrc
```
这里我将原始命令分成了多行,以提高可读性。同时,我还添加了逻辑运算符“&&”,以确保在前一个命令成功执行后再执行下一个命令。这样可以避免因前一个命令失败而导致后续命令无法执行的情况。
创建虚拟环境。
创建并激活名为llm-dev的Python 3.9环境:
```
conda create -n llm-dev python=3.9
conda activate llm-dev
```
请按照以下步骤安装Pytorch及其插件torch_npu:
1. 官方推荐与Pytorch和CANN的版本对应上;
2. 安装完成后,测试是否正常运行。
```
请尝试安装以下依赖项:
- torch==2.1.0
- pyyaml setuptools
- torch-npu==2.1.0
- numpy attrs decorator psutil absl-py cloudpickle psutil scipy synr tornado
您可以使用以下命令进行安装:
```bash
pip3 install torch==2.1.0
pip3 install pyyaml setuptools
pip3 install torch-npu==2.1.0
pip3 install numpy attrs decorator psutil absl-py cloudpickle psutil scipy synr tornado
```
```
初始化CANN环境变量。
source /usr/local/Ascend/ascend-toolkit/set_env.sh
使用Pytorch测试能否在昇腾NPU是否执行成功。
```python
import torch
import torch_npu
x = torch.randn(2, 2).to("cpu")
y = torch.randn(2, 2).to("cpu")
z = torch.matmul(x, y)
print(z)
```
大模型微调接下来进入大模型的微调,进入stanford_alpaca项目。
安装依赖首先,需要安装依赖。
pip install -r requirements.txt
requirements.txt 内容如下所示:
在这篇文章中,我们将探讨一些关键的技术栈,包括:
1. Numpy:这是一个用于处理多维数组和矩阵的Python库,广泛应用于科学计算。
2. Rouge Score:一种评估文本摘要质量的指标,通过计算两个文本之间的重叠度来衡量。
3. Fire:一个用于自动摘要生成的工具,基于神经网络模型。
4. OpenAI:一家致力于开发人工智能技术的公司,涉及自然语言处理、计算机视觉等领域。
5. transformers>=4.28.1:一个基于Transformer架构的自然语言处理库,由Hugging Face开发。
6. PyTorch:一个用于深度学习的开源库,提供了丰富的工具和API。
7. SentencePiece:一个高效的文本分词工具,可以将文本切分成子词或字(token)序列。
8. Tokenizers>=0.13.3:一个灵活的文本分词库,支持多种分词方式。
9. Wandb:一个用于实验追踪和可视化的工具,支持PyTorch和TensorFlow等框架。
10. TensorBoardX:一个基于TensorBoard的可视化工具,用于展示机器学习模型的结构和性能。
11. DeepSpeed:一个加速深度学习训练的库,通过优化内存使用和计算图结构来提高效率。
12. Accelerate:一个用于加速张量计算的库,可以显著提高模型训练速度。
这些技术栈将帮助您更高效地进行文本摘要生成、自然语言处理等任务。
修改代码然后,简单修改stanford_alpaca中的修改代码,保证训练正常运行。
第一步,删除utils.py中OpenAI相关代码(第11行至130行)。
第二步:为模型权重文件添加`trust_remote_code=True`参数,以便执行自定义模型代码。
model = transformers.AutoModelForCausalLM.from_pretrained(
model_args.model_name_or_path,
trust_remote_code=True,
cache_dir=training_args.cache_dir,
)
tokenizer = transformers.AutoTokenizer.from_pretrained(
model_args.model_name_or_path,
trust_remote_code=True,
cache_dir=training_args.cache_dir,
model_max_length=training_args.model_max_length,
padding_side="right",
use_fast=False,
)
至此,整个准备工作就已经完成了,接下来开始训练。
使用 Pytorch FSDP 训练在Pytorch FSDP训练中,为了指定transformers层的类,我们需要使用`fsdp_transformer_layer_cls_to_wrap`。例如,对于Qwen2DecoderLayer,我们可以使用`qwen1.5`,对于Baichuan2-7B的DecoderLayer,我们可以使用`Baichuan2-7B`,对于Baichuan2-13B的BaichuanLayer,我们可以使用`Baichuan2-13B`。
优化后的文章内容(不超过55字):qwen1.5-7b运行命令:baichuan2-13B类似,不再演示。
torchrun --nproc_per_node=8 --master_port=29001 train.py \
--model_name_or_path /workspace/model/Qwen1.5-7B-Chat/ \
--data_path ./alpaca_data_1k.json \
--fp16 True \
--output_dir /workspace/output/alpaca \
--num_train_epochs 1 \
--per_device_train_batch_size 2 \
--per_device_eval_batch_size 4 \
--gradient_accumulation_steps 8 \
--eval_strategy "no" \
--save_strategy "steps" \
--save_steps 2000 \
--save_total_limit 1 \
--learning_rate 2e-5 \
--weight_decay 0. \
--warmup_ratio 0.03 \
--lr_scheduler_type "cosine" \
--logging_steps 1 \
--fsdp "full_shard auto_wrap" \
--fsdp_transformer_layer_cls_to_wrap 'Qwen2DecoderLayer'
使用qwen1.5-14B、baichuan2-13B进行训练时,为降低显存消耗及避免NPU OOM情况,请开启gradient_checkpointing和offload功能。
qwen1.5-14B 启动脚本与baichuan2-13B类似。
torchrun --nproc_per_node=8 --master_port=29001 train.py \
--model_name_or_path /workspace/model/Qwen1.5-14B-Chat/ \
--data_path ./alpaca_data_1k.json \
--fp16 True \
--output_dir /workspace/output/alpaca-qwen14 \
--num_train_epochs 1 \
--per_device_train_batch_size 1 \
--per_device_eval_batch_size 4 \
--gradient_accumulation_steps 8 \
--gradient_checkpointing True \
--eval_strategy "no" \
--save_strategy "steps" \
--save_steps 2000 \
--save_total_limit 1 \
--learning_rate 2e-5 \
--weight_decay 0. \
--warmup_ratio 0.03 \
--lr_scheduler_type "cosine" \
--logging_steps 1 \
--fsdp "full_shard offload auto_wrap" \
--fsdp_transformer_layer_cls_to_wrap 'Qwen2DecoderLayer'
使用 Deepspeed Zero 训练Deepspeed Zero 是一种用于训练大型模型的优化器,它通过三个阶段依次对优化器状态(一阶动量、二阶动量)、梯度、参数的切割,解决了传统数据并行中冗余存储的问题,提高了 GPU 的内存使用效率。ZeRO 是 DeepSpeed 的核心优化技术,旨在通过消除数据并行训练中的冗余内存开销来降低内存占用。ZeRO 将模型的参数、梯度和优化器状态进行分片,并分布到多个计算节点上,从而实现内存的高效利用 。
ZeRO-2在切分optimizer state的基础上,进一步切分Gradient,提升性能。为了进一步节省更多的内存,ZeRO-3提出进行模型参数的分片。ZeRO-Offload 是一种通过将数据和计算从 GPU 卸载到 CPU,以此减少神经网络训练期间 GPU 内存占用的方法,该方法提供了更高的训练吞吐量,并避免了移动数据和在 CPU 上执行计算导致的减速问题。ZeRO-Offload 分为 Offload Strategy 和 Offload Schedule 两部分,前者解决如何在 GPU 和 CPU 间划分模型的问题,后者解决如何调度计算和通信的问题 。
ZeRO-Infinity 在 ZeRO-Offload 优化基础上,主要提升三方面:速度、性能和扩展性。
在使用ZeRO Stage 1和2时,为了提高性能,可以将优化器状态卸载到CPU。而在ZeRO Stage 3中,我们可以进一步优化,将优化器状态和模型参数同时卸载到CPU或NVMe,从而实现更高的计算效率。
下面是使用Zero2训练千问1.5-7B的启动命令。
torchrun --nproc_per_node=8 --master_port=29001 train.py \
--model_name_or_path /workspace/model/Qwen1.5-7B-Chat/ \
--data_path ./alpaca_data_1k.json \
--fp16 True \
--output_dir /workspace/output/alpaca2 \
--per_device_train_batch_size 2 \
--gradient_accumulation_steps=8 \
--num_train_epochs 1 \
--per_device_eval_batch_size 4 \
--eval_strategy "no" \
--save_strategy "steps" \
--save_steps 2000 \
--save_total_limit 1 \
--learning_rate 2e-5 \
--weight_decay 0. \
--warmup_ratio 0.03 \
--lr_scheduler_type "cosine" \
--logging_steps 1 \
--deepspeed ds_config_zero2.json
请将 ds_config_zero2.json 文件放置在 llm-action 目录中,以便配置零信任策略。
使用Deepspeed Zero3进行训练时,启动命令与类似,配置文件ds_config_zero3.json也需放置在llm-action中。
当前,Zero3在Ascend NPU上训练baichuan2时出现错误。尽管Zero3成功训练qwen1.5,但与ZeRO-Offload结合仍存在问题,需要深入调查原因。
结语本文演示了如何快速在昇腾910B上微调baichuan2/qwen1.5大模型,相对于Nvidia GPU来说,目前将大模型部署到910B,基本上不需要太多额外的改动即可完成。当然该方案可能会遇到某些算子瓶颈,导致性能很差,特别是在910A上面特别明显。此外,还有一些库并没有原生支持Ascend NPU,比如:bitsandbytes、Xformers 等。因此,在训练和微调时,会受到一些限制。不过,现在越来越多的训练微调框架已宣布原生支持Ascend NPU了,比如:LLaMA-Factory、unsloth等。
-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-