随着人工智能的广泛应用,越来越多的人参与“见证奇迹”,但这方面的实践对算力的要求比较高。在精心配置一台游戏电脑的基础上,简要记录一下深度学习的硬件指南。
CPU
尽管CPU并不直接参与深度学习模型计算,但CPU需要提供大于模型训练吞吐的数据处理能力,更多核心数量的CPU将更有优势。
CPU和主板是对应的,还应该重点考察主板的PCIe通道数,这决定了可接显卡和SSD的数量和带宽质量。
内存
尽可能获得足够容量、更高时钟频率的内存。
用于推理,Llama 3.1 需要多少内存?
GPU
深度学习是一个计算要求很高的领域,您对 GPU 的选择将从根本上决定您的深度学习体验。
- NVIDIA 在 GPU 市场占据主导地位,尤其是在深度学习和复杂神经网络方面。
- 优先选择 Volta、Turing 或者 Ampere 架构中兼具 CUDA cores 和 Tensor Core 的显卡。
以下是AutoDL帮助文档中的GPU选型,也是AutoDL AI算力云实际配置的品种。
型号 | 显存 | FP32 | FP16 | 说明 |
---|---|---|---|---|
Tesla P40 | 24GB | 11.76 T | 11.76 T | 比较老的Pascal架构GPU,对于cuda11.x之前且对大显存有需求的算法是非常不错的选择 |
TITAN Xp | 12GB | 12.15 T | 12.15 T | 比较老的Pascal架构GPU,用作入门比较合适 |
1080 Ti | 11GB | 11.34 T | 11.34 T | 和TITANXp同时代的卡,同样适合入门,但是11GB的显存偶尔会比较尴尬 |
2080Ti | 11GB | 13.45 T | 53.8 T | 图灵架构GPU,性能还不错,老一代型号中比较适合做混合精度计算的GPU。性价比高 |
V100 | 16/32GB | 15.7 T | 125 T | 老一代专业计算卡皇,半精性能高适合做混合精度计算 |
3060 | 12GB | 12.74 T | 约24T | 如果1080Ti的显存正好尴尬了,3060是不错的选择,适合新手。 |
A4000 | 16GB | 19.17 T | 约76T | 显存和算力都比较均衡,适合进阶过程使用。 |
3080Ti | 12GB | 34.10 T | 约70T | 性能钢炮,如果对显存要求不高则是非常合适的选择。 |
A5000 | 24GB | 27.77T | 约117T | 性能钢炮,如果觉得3080Ti的显存不够用A5000是合适的选择,并且半精算力高适合混合精度。 |
3090 | 24GB | 35.58 T | 约71T | 可以看做3080Ti的扩显存版。性能和显存大小都非常够用,适用性非常强,性价比首选。 |
A40 | 48GB | 37.42 T | 149.7 T | 可以看做是3090的扩显存版。算力和3090基本持平,因此根据显存大小进行选择。 |
A100 SXM4 | 40/80GB | 19.5 T | 312 T | 新一代专业计算卡皇,除了贵没缺点。显存大,非常适合做半精计算,因为有NVLink加持,多卡并行加速比非常高。 |
.
持续追踪GPU AI算力的评测博主 Tim Dettmers 对截至2022年的可选GPU列表如下:
按照Tim Dettmers的研究,GPU的重要性排序:Tensor Core 最为重要,其次是 GPU 的内存带宽、缓存层次结构,最后是 GPU 的 FLOPS。
GPU 的选择是比较复杂的事情,需要综合计算需求、成本和 GPU 本身的诸多参数表现。
- 由于 Pascal 架构的旧代 GPU 价格便宜,适合练习或调试。
- Ampere 架构的卡需要 cuda11.1 及以上才能使用,请使用较高版本的框架。
- 虽然价格是一个极大的参考因子,但 GPU 的算力参数不可忽视,防止硬件配置不能满足实际需求,可参考《人工智能超算中心的高性能处理芯片》和《Jetson Nano 2GB 开发套件动手玩》中相关章节。
- 显卡的算力单位基础知识请浏览《浮点数的双精度、单精度和半精度》。
为了体验人工智能大模型推理,本文作者使用的是华硕 TURBO-RTX2080TI-11G。
最后的建议
了解 NVIDIA 支持 CUDA 的 GPU 卡列表。尽量选择NVIDIA TITAN Xp和GeForce RTX 2060及更新的显卡,同时有12GB及以上显存和支持Tensor Core更好。
在此我们更关注消费级显卡。NVIDIA GeForce 系列消费级显卡主要的设计应用场景是游戏和图形渲染,也可以用于消费级 AI 推理。
RTX 20系列(Turing架构)的FP16和FP32计算单元是分开的。每个CUDA核心可以执行一个FP32操作或两个FP16操作。这意味着在FP16模式下,算力是FP32模式的两倍。
RTX 30系列(Ampere架构)和RTX 40系列(Ada Lovelace架构)引入了统一的计算单元,这些单元可以同时处理FP16和FP32操作。这意味着每个CUDA核心在FP16和FP32模式下的算力是相同的。
具体来说,半精度可用于AI的深度学习和机器学习 (ML) ,研究表明,许多机器学习模型可容许较低精度的算法而不降低收敛准确性。但单精度(FP32)对应影音处理,在处理复杂的图形比如渲染照片般逼真的动态环境时,您需要NVIDIA GeForce RTX 3090以上算力的显卡(单精度算力接近或超过40 TOPS)——目前来看也只有RTX 3090、3090 Ti、4070 Ti、4080和4090。
AI服务器根据应用需求不同分为深度学习训练型和智能应用推理型,训练任务需要高密度算力支持,推理任务对算力的要求却可能比你想象的更低,甚至一些AI应用只需要CPU就可以运行。因此,如果是玩深度学习训练模型(“炼丹”)或者ChatGPT,应该投入顶级显卡 * N 或者租用网络算力;如果是本地部署一些轻量AI应用如画图、语音识别、图像修复、知识整理等推理模型,选择一张在售NVIDIA RTX显卡总是没错的。
电源
功能足够大的电源,特别是GPU会消耗更多的电能。
冷却
部署温度监控程序来监视GPU的温度,并安装GPU冷却系统确保冷却效果,机箱设计和机箱风扇都不重要。
整机的配置信息请参考《Windows 95后的个人电脑参考配置》,包含个人电脑兼顾视频游戏和AI推理任务的最新信息。
新的办法
2024年12 月 17 日英伟达推出Jetson Orin Nano Super Developer Kit,这款开发者套件通过软件升级Jetson Orin Nano Developer Kit,实现了更高性能和更低价格。
软件升级后Jetson Orin Nano的算力值为67 INT8 TOPS,足够使其作为物联网设备、移动设备等边缘设备进行实时推理。
如果您仔细关注,市场上已经出现了许多具有一定算力的边缘和移动设备,可以作为个人深度学习的硬件备选项。
👍
楼主残忍的关闭了评论