首页 » 软件优化 » 大模型训练及推理【硬件选型指南】及 GPU 通识(模型训练选型推理硬件)

大模型训练及推理【硬件选型指南】及 GPU 通识(模型训练选型推理硬件)

神尊大人 2024-10-23 12:44:12 0

扫一扫用手机浏览

文章目录 [+]

有些在京东就能买到美国商务部限制 GPU 对华出口的算力不超过 4800 TOPS 和带宽不超过 600 GB/s,导致最强的 H100 和 A100 禁售。
黄教主随后推出针对中国市场的 A800 和 H800。
参考:英伟达 A100 和 H100 已被禁止向中国供货50 亿美元,算力芯片迎来狂欢,腾讯字节抢购英伟达 A800 订单H100 与 A100

H100 比 A100 快多少?

16-bit 推理快约 3.5 倍,16-bit 训练快约 2.3 倍。

参考资料

大模型训练及推理【硬件选型指南】及 GPU 通识(模型训练选型推理硬件) 软件优化
(图片来自网络侵删)

https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/

根据场景选择GPU

以下是我们为您提供的,基于显卡 4090 上的 chatglm 和 chatglm2 模型的 Fine tuning 实验数据概览:

模型

数据条数

时长

技术

chatglm

9999

1:42:46

pt2

chatglm

39333

6:45:21

pt2

chatglm

9999

1:31:05

Lora

chatglm

39333

5:40:16

Lora

chatglm2

9999

1:50:27

pt2

chatglm2

39333

7:26:25

pt2

chatglm2

9999

1:29:08

Lora

chatglm2

39333

5:45:08

Lora

llm-utils 上一些选型的建议Falcon 是目前为止 huggingface 上排行榜第一的模型

根据不同的使用情境,以下是使用的建议GPU:

模型

显卡要求

推荐显卡

Running Falcon-40B

运行 Falcon-40B 所需的显卡应该有 85GB 到 100GB 或更多的显存

See Falcon-40B table

Running MPT-30B

当运行 MPT-30B 时,显卡应该具有80GB的显存

See MPT-30B table

Training LLaMA (65B)

对于训练 LLaMA (65B),使用 8000 台 Nvidia A100 显卡。

Very large H100 cluster

Training Falcon (40B)

训练 Falcon (40B) 需要 384 台具有 40GB 显存的 A100 显卡。

Large H100 cluster

Fine tuning an LLM (large scale)

大规模微调 LLM 需要 64 台 40GB 显存的 A100 显卡

H100 cluster

Fine tuning an LLM (small scale)

小规模微调 LLM 则需要 4 台 80GB 显存的 A100 显卡。

Multi-H100 instance

不同情况推荐

划重点:

对于本地个人研发项目,GeForce RTX 4090 等消费级 GPU 足以满足中等规模的需求。
对于公司的大规模数据和复杂模型,推荐使用如 NVIDIA A100 的高性能 GPU。
数据规模小时,可考虑预算内的 A10 或 T4 型号。
如果追求性价比,可以选择把 4090 显卡搭建服务器使用,也可以选择市面的第三方服务,比如:AutoDL 的 4090 服务

1、大模型内存选择

大模型训练需要高性能的计算机硬件来保证训练的效率和速度。
建议选择具有高速的ECC或DDR5内存。
现在训练时一般在 GLM 、 LLaMA 等大模型的基础上进行训练,国内会选择 A800/H800 x 8 的 GPU 配置,与此同时内存一般会选择相似大小以提升效率,常规选择 512 内存。

2、大模型所需磁盘

大模型训练需要存储大规模的数据集和模型参数,因此需要足够的存储资源来保证数据能够快速地被读取和处理。
建议选择具有大容量、高速的存储设备,如 SSD 或 NVMe 固态硬盘。
一般 4T-8T 不等。

3、推荐配置参考

GPU算力平台:大模型训练、自动驾驶、深度学习解决方案。

A100/A800大模型训练配置分享平台:SYS-420GP-TNAR(4U)CPU:28358(32核心,铂金版,2.6GHz 超频 3.4GHz)GPU:NVIDIA HGX A100/A800(80G SXM)内存:3264GB DDR4H100/H800大模型训练配置分享平台:SYS-821GE-TNHR(8U)CPU:28468(48核心,铂金版,2.1GHz 超频 3.8GHz)GPU:NVIDIA HGX H100/H800(80G SXM5)内存:3264GB DDR5

物理机 vs. 云服务

划重点:

如果经常做微调实验,有自己的物理机会方便很多很多提供推理服务,首选云服务如果有自建机房或 IDC,请随意云服务厂商对比国内主流阿里云:https://www.aliyun.com/product/ecs/gpu腾讯云:cloud.tencent.com/act/pro/gpu…火山引擎:www.volcengine.com/product/gpu国外主流AWS:aws.amazon.comVultr:www.vultr.comTPU:cloud.google.com/tpu

TPU 是 Google 专门用于加速机器学习的硬件。
它特别适合大规模深度学习任务,通过高效的架构在性能和能源消耗上表现出色。

它的优点和应用场景

高性能和能效: TPU 可以更快地完成任务,同时消耗较少的能源,降低成本。
大规模训练: TPU 适用于大规模深度学习训练,能够高效地处理大量数据。
实时推理: 适合需要快速响应的任务,如实时图像识别和文本分析。
云端使用: Google Cloud 提供 TPU 服务,允许用户根据需求使用,无需购买硬件。

适用于图像处理、自然语言处理、推荐系统等多个领域。
在国外,科研机构、大公司和初创企业普遍使用 TPU。

NVIDIA GPU 在主流厂商的价对比

下面是对两款 NVIDIA GPU 在火山引擎、阿里云、腾讯云的价格进行对比:

A100:在云服务中,A100 是顶级的企业级 GPU,适用于高性能计算需求。
T4:相比之下,T4 更为经济,适合日常模型微调和推理任务。

NVIDIA A100:

云服务提供商

GPU 型号

CPU 核心数

内存(GiB)

价格(元/小时)

火山引擎

A100

14 核

245

40.39

阿里云

A100

16 vCPU

125

34.742

腾讯云

A100

16 核

96

28.64

NVIDIA T4:

云服务提供商

GPU 型号

CPU 核心数

内存(GiB)

价格(元/小时)

阿里云

T4

4 vCPU

15

11.63

火山引擎

T4

4 核

16

11.28

腾讯云

T4

8 核

32

8.68

算力平台

主要用于学习和训练,不适合提供服务。

Colab:谷歌出品,升级服务仅需 9 美金。
colab.google.comKaggle:免费,每周 30 小时 T4,P100 可用。
www.kaggle.comAutoDL:价格亲民,支持 Jupyter Notebook 及 ssh,国内首选。
www.autodl.com

建议:若需高速下载,尤其依赖于 GitHub 或 Docker 官方镜像,建议选择国外服务器。

NVIDIA显卡排行榜

此网站能实时对比各种型号显卡

https://technical.city/zh/video/nvidia-rating

Top 100

下面截图给大家 Top 100,详细请看原文链接。

参考链接GPU选型指南https://gpus.llm-utils.org/cloud-gpu-guide/⚙️ GPU 通识及硬件选型https://www.yuque.com/lhyyh/ai/srzk2d1mt5gvx08pllm-utilshttps://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/显卡排行榜https://technical.city/zh/video/nvidia-ratingTim Dettmershttps://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/大模型训练要啥样配置https://blog.csdn.net/bestpasu/article/details/134096396

AI 大模型全栈知识库

https://www.yuque.com/lhyyh/ai

标签:

相关文章