深度学习硬件指南

深度学习 2023-06-29 256 次浏览 0 条评论 次点赞

Hardware-Guide-for-Deep-Learning

随着人工智能的广泛应用,越来越多的人参与“见证奇迹”,但这方面的实践对算力的要求比较高。在精心配置一台游戏电脑的基础上,简要记录一下深度学习的硬件指南。

CPU

尽管CPU并不直接参与深度学习模型计算,但CPU需要提供大于模型训练吞吐的数据处理能力,更多核心数量的CPU将更有优势。

CPU和主板是对应的,还应该重点考察主板的PCIe通道数,这决定了可接显卡和SSD的数量和带宽质量。

内存

尽可能获得足够容量、更高时钟频率的内存。

GPU

深度学习是一个计算要求很高的领域,您对 GPU 的选择将从根本上决定您的深度学习体验。

  • NVIDIA 在 GPU 市场占据主导地位,尤其是在深度学习和复杂神经网络方面。
  • 优先选择 Volta、Turing 或者 Ampere 架构中兼具 CUDA cores 和 Tensor Core 的显卡。

以下是AutoDL帮助文档中的GPU选型,也是AutoDL AI算力云实际配置的品种。

型号 显存 FP32 FP16 说明
Tesla P40 24GB 11.76 T 11.76 T 比较老的Pascal架构GPU,对于cuda11.x之前且对大显存有需求的算法是非常不错的选择
TITAN Xp 12GB 12.15 T 12.15 T 比较老的Pascal架构GPU,用作入门比较合适
1080 Ti 11GB 11.34 T 11.34 T 和TITANXp同时代的卡,同样适合入门,但是11GB的显存偶尔会比较尴尬
2080Ti 11GB 13.45 T 53.8 T 图灵架构GPU,性能还不错,老一代型号中比较适合做混合精度计算的GPU。性价比高
V100 16/32GB 15.7 T 125 T 老一代专业计算卡皇,半精性能高适合做混合精度计算
3060 12GB 12.74 T 约24T 如果1080Ti的显存正好尴尬了,3060是不错的选择,适合新手。
A4000 16GB 19.17 T 约76T 显存和算力都比较均衡,适合进阶过程使用。
3080Ti 12GB 34.10 T 约70T 性能钢炮,如果对显存要求不高则是非常合适的选择。
A5000 24GB 27.77T 约117T 性能钢炮,如果觉得3080Ti的显存不够用A5000是合适的选择,并且半精算力高适合混合精度。
3090 24GB 35.58 T 约71T 可以看做3080Ti的扩显存版。性能和显存大小都非常够用,适用性非常强,性价比首选。
A40 48GB 37.42 T 149.7 T 可以看做是3090的扩显存版。算力和3090基本持平,因此根据显存大小进行选择。
A100 SXM4 40/80GB 19.5 T 312 T 新一代专业计算卡皇,除了贵没缺点。显存大,非常适合做半精计算,因为有NVLink加持,多卡并行加速比非常高。

.
持续追踪GPU AI算力的评测博主 Tim Dettmers 对截至2022年的可选GPU列表如下:

3543205800.webp

按照Tim Dettmers的研究,GPU的重要性排序:Tensor Core 最为重要,其次是 GPU 的内存带宽、缓存层次结构,最后是 GPU 的 FLOPS。

GPU 的选择是比较复杂的事情,需要综合计算需求、成本和 GPU 本身的诸多参数表现。

最后的建议:

了解 NVIDIA 支持 CUDA 的 GPU 卡列表。尽量选择NVIDIA TITAN Xp和GeForce RTX 2060及更新的显卡,同时有12GB及以上显存和支持Tensor Core更好。

电源

功能足够大的电源,特别是GPU会消耗更多的电能。

冷却

部署温度监控程序来监视GPU的温度,并安装GPU冷却系统确保冷却效果,机箱设计和机箱风扇都不重要。

👍

本文由 cds 整理发布,参考 CC-BY-SA 3.0 协议共享,欢迎转载、引用或改编。
感谢您的支持,以共同推动STEM公益教育!

楼主残忍的关闭了评论