大模型国产化迁移大模型到昇腾教程(Pytorch版)

薪科技快评 2025-01-03 10:46:02

大模型国产化适配10-快速迁移大模型到昇腾910B保姆级教程(Pytorch版)

随着ChatGPT的火爆,AI大模型时代来临,但算力紧张。中美贸易战及美国制裁AI芯片,国产化势在必行。已有国产AI芯片和Mindformers框架,基于昇腾910训练大模型,使用MindIE实现大模型服务化。

本文介绍如何迅速将大型模型迁移到昇腾910B,许多入门者都是从斯坦福羊驼开始的。我们将利用羊驼的训练代码和数据集,快速在昇腾910B上训练baichuan2-7B/13B和qwen1.5-7B/14B这两个大型模型。之前的文章已经详细讲解了如何从零开始复现斯坦福羊驼(Stanford Alpaca 7B),因此本文不再赘述该过程。斯坦福羊驼的整体思路如下图所示:

准备工作操作系统版本/架构:EulerOS 2.0 (SP10)/aarch64NPU:8x 910B 64GPython:3.9NPU 驱动:24.1.rc1,NPU 固件:7.1.0.6.220,CANN 工具包:7.0.0,Pytorch及torch_npu插件:2.1.0,Docker镜像优化:ascend-mindspore 23.0.0-A2-ubuntu18.04,DeepSpeed:0.14.1,

查询所有设备的基本信息。

> npu-smi info

+------------------------------------------------------------------------------------------------+

| npu-smi 24.1.rc1 Version: 24.1.rc1 |

+---------------------------+---------------+----------------------------------------------------+

| NPU Name | Health | Power(W) Temp(C) Hugepages-Usage(page)|

| Chip | Bus-Id | AICore(%) Memory-Usage(MB) HBM-Usage(MB) |

+===========================+===============+====================================================+

| 0 910B1 | OK | 95.7 36 0 / 0 |

| 0 | 0000:C1:00.0 | 0 0 / 0 3306 / 65536 |

+===========================+===============+====================================================+

| 1 910B1 | OK | 96.7 38 0 / 0 |

| 0 | 0000:01:00.0 | 0 0 / 0 3307 / 65536 |

+===========================+===============+====================================================+

| 2 910B1 | OK | 92.2 36 0 / 0 |

| 0 | 0000:C2:00.0 | 0 0 / 0 3307 / 65536 |

+===========================+===============+====================================================+

| 3 910B1 | OK | 96.2 37 0 / 0 |

| 0 | 0000:02:00.0 | 0 0 / 0 3306 / 65536 |

+===========================+===============+====================================================+

| 4 910B1 | OK | 92.2 36 0 / 0 |

| 0 | 0000:81:00.0 | 0 0 / 0 3307 / 65536 |

+===========================+===============+====================================================+

| 5 910B1 | OK | 98.7 37 0 / 0 |

| 0 | 0000:41:00.0 | 0 0 / 0 3307 / 65536 |

+===========================+===============+====================================================+

| 6 910B1 | OK | 95.3 36 0 / 0 |

| 0 | 0000:82:00.0 | 0 0 / 0 3306 / 65536 |

+===========================+===============+====================================================+

| 7 910B1 | OK | 94.6 39 0 / 0 |

| 0 | 0000:42:00.0 | 0 0 / 0 3305 / 65536 |

+===========================+===============+====================================================+

本次使用 Atlas 900 RCK A2 计算节点逻辑结构如下所示。

集成四路鲲鹏920处理器,每个处理器支持8个DDR4 DIMM。iBMC使用华为自研管理芯片,外出VGA、管理网口、调试串口等管理接口。集成8个昇腾910 AI处理器(NPU模组):每个NPU模组通过一路PCIe 4.0 x16与CPU主板对接。每个NPU模组出1*200GE,通过NPU模组本身自带高速Serdes接口完成。"NPU模组以七路双向56GB/s的HCCS提供带宽,八个模组Full Mesh连接,助力效能提升。"

image.png

通过以下命令来查询设备CPU和NPU的亲和性关系、多NPU之间的拓扑结构。

> npu-smi info -t topo

NPU0 NPU1 NPU2 NPU3 NPU4 NPU5 NPU6 NPU7 CPU Affinity

NPU0 X HCCS HCCS HCCS HCCS HCCS HCCS HCCS 144-167

NPU1 HCCS X HCCS HCCS HCCS HCCS HCCS HCCS 0-23

NPU2 HCCS HCCS X HCCS HCCS HCCS HCCS HCCS 144-167

NPU3 HCCS HCCS HCCS X HCCS HCCS HCCS HCCS 0-23

NPU4 HCCS HCCS HCCS HCCS X HCCS HCCS HCCS 96-119

NPU5 HCCS HCCS HCCS HCCS HCCS X HCCS HCCS 48-71

NPU6 HCCS HCCS HCCS HCCS HCCS HCCS X HCCS 96-119

NPU7 HCCS HCCS HCCS HCCS HCCS HCCS HCCS X 48-71

Legend:

X = Self

SYS = Path traversing PCIe and NUMA nodes. Nodes are connected through SMP, such as QPI, UPI.

PHB = Path traversing PCIe and the PCIe host bridge of a CPU.

PIX = Path traversing a single PCIe switch

PXB = Path traversing multipul PCIe switches

HCCS = Connection traversing HCCS.

NA = Unknown relationship.

参数说明:模型准备

请下载baichuan2-7B/13B、qwen1.5-7B/14B大模型,由于访问HuggingfaceHub在国内不太友好,我们提供直接通过ModelScope下载的途径。

git lfs clone https://www.modelscope.cn/qwen/Qwen1.5-7B-Chat.git

git lfs clone https://www.modelscope.cn/qwen/Qwen1.5-14B-Chat.git

git lfs clone https://www.modelscope.cn/baichuan-inc/Baichuan2-7B-Chat.git

git lfs clone https://www.modelscope.cn/baichuan-inc/Baichuan2-13B-Chat.git

代码和数据集准备

本文直接复用斯坦福羊驼的代码和数据集进行训练,预先下载代码。

"克隆tatsu-lab的stanford_alpaca仓库,使用git命令:https://github.com/tatsu-lab/stanford_alpaca.git"

环境准备

从ascendhub镜像仓库下载镜像。

请使用以下命令登录华为云容器镜像服务:

```

docker login -u 157xxx4031 ascendhub.huawei.com

```

然后,拉取华为云公共镜像中的MindSpore 23.0.0-A2版本,适用于Ubuntu 18.04操作系统:

```

docker pull ascendhub.huawei.com/public-ascendhub/ascend-mindspore:23.0.0-A2-ubuntu18.04

```

创建容器并进入容器。

# docker rm -f pytorch_ubuntu_dev

docker run -it -u root \

--name pytorch_ubuntu_dev \

--network host \

-e ASCEND_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 \

-v /etc/localtime:/etc/localtime \

-v /var/log/npu/:/usr/slog \

-v /usr/bin/hccn_tool:/usr/bin/hccn_tool \

-v /data/containerd/workspace/:/workspace \

ascendhub.huawei.com/public-ascendhub/ascend-mindspore:23.0.0-A2-ubuntu18.04 \

/bin/bash

# 启动容器

# docker start pytorch_ubuntu_dev

# 进入容器

# docker exec -it pytorch_ubuntu_dev bash

安装conda。

```

wget -c https://repo.anaconda.com/miniconda/Miniconda3-py39_24.4.0-0-Linux-aarch64.sh && \nbash Miniconda3-py39_24.4.0-0-Linux-aarch64.sh -p /workspace/installs/conda && \nsource ~/.bashrc

```

这里我将原始命令分成了多行,以提高可读性。同时,我还添加了逻辑运算符“&&”,以确保在前一个命令成功执行后再执行下一个命令。这样可以避免因前一个命令失败而导致后续命令无法执行的情况。

创建虚拟环境。

创建并激活名为llm-dev的Python 3.9环境:

```

conda create -n llm-dev python=3.9

conda activate llm-dev

```

请按照以下步骤安装Pytorch及其插件torch_npu:

1. 官方推荐与Pytorch和CANN的版本对应上;

2. 安装完成后,测试是否正常运行。

```

请尝试安装以下依赖项:

- torch==2.1.0

- pyyaml setuptools

- torch-npu==2.1.0

- numpy attrs decorator psutil absl-py cloudpickle psutil scipy synr tornado

您可以使用以下命令进行安装:

```bash

pip3 install torch==2.1.0

pip3 install pyyaml setuptools

pip3 install torch-npu==2.1.0

pip3 install numpy attrs decorator psutil absl-py cloudpickle psutil scipy synr tornado

```

```

初始化CANN环境变量。

source /usr/local/Ascend/ascend-toolkit/set_env.sh

使用Pytorch测试能否在昇腾NPU是否执行成功。

```python

import torch

import torch_npu

x = torch.randn(2, 2).to("cpu")

y = torch.randn(2, 2).to("cpu")

z = torch.matmul(x, y)

print(z)

```

大模型微调

接下来进入大模型的微调,进入stanford_alpaca项目。

安装依赖

首先,需要安装依赖。

pip install -r requirements.txt

requirements.txt 内容如下所示:

在这篇文章中,我们将探讨一些关键的技术栈,包括:

1. Numpy:这是一个用于处理多维数组和矩阵的Python库,广泛应用于科学计算。

2. Rouge Score:一种评估文本摘要质量的指标,通过计算两个文本之间的重叠度来衡量。

3. Fire:一个用于自动摘要生成的工具,基于神经网络模型。

4. OpenAI:一家致力于开发人工智能技术的公司,涉及自然语言处理、计算机视觉等领域。

5. transformers>=4.28.1:一个基于Transformer架构的自然语言处理库,由Hugging Face开发。

6. PyTorch:一个用于深度学习的开源库,提供了丰富的工具和API。

7. SentencePiece:一个高效的文本分词工具,可以将文本切分成子词或字(token)序列。

8. Tokenizers>=0.13.3:一个灵活的文本分词库,支持多种分词方式。

9. Wandb:一个用于实验追踪和可视化的工具,支持PyTorch和TensorFlow等框架。

10. TensorBoardX:一个基于TensorBoard的可视化工具,用于展示机器学习模型的结构和性能。

11. DeepSpeed:一个加速深度学习训练的库,通过优化内存使用和计算图结构来提高效率。

12. Accelerate:一个用于加速张量计算的库,可以显著提高模型训练速度。

这些技术栈将帮助您更高效地进行文本摘要生成、自然语言处理等任务。

修改代码

然后,简单修改stanford_alpaca中的修改代码,保证训练正常运行。

第一步,删除utils.py中OpenAI相关代码(第11行至130行)。

第二步:为模型权重文件添加`trust_remote_code=True`参数,以便执行自定义模型代码。

model = transformers.AutoModelForCausalLM.from_pretrained(

model_args.model_name_or_path,

trust_remote_code=True,

cache_dir=training_args.cache_dir,

)

tokenizer = transformers.AutoTokenizer.from_pretrained(

model_args.model_name_or_path,

trust_remote_code=True,

cache_dir=training_args.cache_dir,

model_max_length=training_args.model_max_length,

padding_side="right",

use_fast=False,

)

至此,整个准备工作就已经完成了,接下来开始训练。

使用 Pytorch FSDP 训练

在Pytorch FSDP训练中,为了指定transformers层的类,我们需要使用`fsdp_transformer_layer_cls_to_wrap`。例如,对于Qwen2DecoderLayer,我们可以使用`qwen1.5`,对于Baichuan2-7B的DecoderLayer,我们可以使用`Baichuan2-7B`,对于Baichuan2-13B的BaichuanLayer,我们可以使用`Baichuan2-13B`。

优化后的文章内容(不超过55字):qwen1.5-7b运行命令:baichuan2-13B类似,不再演示。

torchrun --nproc_per_node=8 --master_port=29001 train.py \

--model_name_or_path /workspace/model/Qwen1.5-7B-Chat/ \

--data_path ./alpaca_data_1k.json \

--fp16 True \

--output_dir /workspace/output/alpaca \

--num_train_epochs 1 \

--per_device_train_batch_size 2 \

--per_device_eval_batch_size 4 \

--gradient_accumulation_steps 8 \

--eval_strategy "no" \

--save_strategy "steps" \

--save_steps 2000 \

--save_total_limit 1 \

--learning_rate 2e-5 \

--weight_decay 0. \

--warmup_ratio 0.03 \

--lr_scheduler_type "cosine" \

--logging_steps 1 \

--fsdp "full_shard auto_wrap" \

--fsdp_transformer_layer_cls_to_wrap 'Qwen2DecoderLayer'

使用qwen1.5-14B、baichuan2-13B进行训练时,为降低显存消耗及避免NPU OOM情况,请开启gradient_checkpointing和offload功能。

qwen1.5-14B 启动脚本与baichuan2-13B类似。

torchrun --nproc_per_node=8 --master_port=29001 train.py \

--model_name_or_path /workspace/model/Qwen1.5-14B-Chat/ \

--data_path ./alpaca_data_1k.json \

--fp16 True \

--output_dir /workspace/output/alpaca-qwen14 \

--num_train_epochs 1 \

--per_device_train_batch_size 1 \

--per_device_eval_batch_size 4 \

--gradient_accumulation_steps 8 \

--gradient_checkpointing True \

--eval_strategy "no" \

--save_strategy "steps" \

--save_steps 2000 \

--save_total_limit 1 \

--learning_rate 2e-5 \

--weight_decay 0. \

--warmup_ratio 0.03 \

--lr_scheduler_type "cosine" \

--logging_steps 1 \

--fsdp "full_shard offload auto_wrap" \

--fsdp_transformer_layer_cls_to_wrap 'Qwen2DecoderLayer'

使用 Deepspeed Zero 训练

Deepspeed Zero 是一种用于训练大型模型的优化器,它通过三个阶段依次对优化器状态(一阶动量、二阶动量)、梯度、参数的切割,解决了传统数据并行中冗余存储的问题,提高了 GPU 的内存使用效率。ZeRO 是 DeepSpeed 的核心优化技术,旨在通过消除数据并行训练中的冗余内存开销来降低内存占用。ZeRO 将模型的参数、梯度和优化器状态进行分片,并分布到多个计算节点上,从而实现内存的高效利用 。

ZeRO-2在切分optimizer state的基础上,进一步切分Gradient,提升性能。为了进一步节省更多的内存,ZeRO-3提出进行模型参数的分片。

ZeRO-Offload 是一种通过将数据和计算从 GPU 卸载到 CPU,以此减少神经网络训练期间 GPU 内存占用的方法,该方法提供了更高的训练吞吐量,并避免了移动数据和在 CPU 上执行计算导致的减速问题。ZeRO-Offload 分为 Offload Strategy 和 Offload Schedule 两部分,前者解决如何在 GPU 和 CPU 间划分模型的问题,后者解决如何调度计算和通信的问题 。

ZeRO-Infinity 在 ZeRO-Offload 优化基础上,主要提升三方面:速度、性能和扩展性。

在使用ZeRO Stage 1和2时,为了提高性能,可以将优化器状态卸载到CPU。而在ZeRO Stage 3中,我们可以进一步优化,将优化器状态和模型参数同时卸载到CPU或NVMe,从而实现更高的计算效率。

下面是使用Zero2训练千问1.5-7B的启动命令。

torchrun --nproc_per_node=8 --master_port=29001 train.py \

--model_name_or_path /workspace/model/Qwen1.5-7B-Chat/ \

--data_path ./alpaca_data_1k.json \

--fp16 True \

--output_dir /workspace/output/alpaca2 \

--per_device_train_batch_size 2 \

--gradient_accumulation_steps=8 \

--num_train_epochs 1 \

--per_device_eval_batch_size 4 \

--eval_strategy "no" \

--save_strategy "steps" \

--save_steps 2000 \

--save_total_limit 1 \

--learning_rate 2e-5 \

--weight_decay 0. \

--warmup_ratio 0.03 \

--lr_scheduler_type "cosine" \

--logging_steps 1 \

--deepspeed ds_config_zero2.json

请将 ds_config_zero2.json 文件放置在 llm-action 目录中,以便配置零信任策略。

使用Deepspeed Zero3进行训练时,启动命令与类似,配置文件ds_config_zero3.json也需放置在llm-action中。

当前,Zero3在Ascend NPU上训练baichuan2时出现错误。尽管Zero3成功训练qwen1.5,但与ZeRO-Offload结合仍存在问题,需要深入调查原因。

结语

本文演示了如何快速在昇腾910B上微调baichuan2/qwen1.5大模型,相对于Nvidia GPU来说,目前将大模型部署到910B,基本上不需要太多额外的改动即可完成。当然该方案可能会遇到某些算子瓶颈,导致性能很差,特别是在910A上面特别明显。此外,还有一些库并没有原生支持Ascend NPU,比如:bitsandbytes、Xformers 等。因此,在训练和微调时,会受到一些限制。不过,现在越来越多的训练微调框架已宣布原生支持Ascend NPU了,比如:LLaMA-Factory、unsloth等。

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

0 阅读:0

薪科技快评

简介:薪科技评说,发现技术的点滴,记录科学的飞跃!