You are on page 1of 9

关于深度学习工作站的搭建

最近有几个帖子询问深度学习工作站的搭建方案,我也在主帖里面进

行了一些回复。正好这周休息,有空自己写一个帖子。其实自己也不

是什么大神,只是这两年自己、实验室配置了几台,所以一些经验和

建议和大家分享一下。自己水平有限,很多细节其实也不是完全清楚,

所以也算抛砖引玉,请大神能够指点。

这两三年深度学习和神经网络是非常火的领域,很多很多企业、科研

机构、高校、实验室甚至个人都想进入这个热点。所以除了 intel、nvidia、

amd 这些计算能力提供厂商以外,很多服务器、工作站的整机或 DIY

厂商也在提供服务和计算平台。这里主要还是针对小规模的桌面级,

或者实验室用的计算平台。需要说明的是,新卡和新 U 要上了,这

里还是按照 10 系和 8 系在讨论,等到新卡和新 U 上了按等级替换就

可以了。

1、明确应用场所,或者说,谁出钱。企业或研究机构作为生产力工

具,或者说类似于的大型科学设备,那完全是另一种概念,也不在讨

论范围之类。这里的重点还是实验室工作站和个人研究工作站,而且

也不去说多节点配置。

2 实验室工作站:
老板或导师出钱,一般而言可以在预算范围内尽量高配,同时也可以

交给整机供应商配好。一般分为公用计算机、比赛机器。比赛机器一

般单卡,可归为个人研究用;而公用计算机建议 4 卡起配,现在的单

工作站/服务器一般最多 10 卡。所以 4 卡、8 卡、10 卡是较为常见的

方案。其中 4 卡可选择塔式或者机架式 4U 机箱,而 8 卡或 10 卡则

都是机架式机箱了。4 卡可 DIY 自行配制,归为个人研究工作站讨论,

这里只说说 8 卡和 10 卡。8 卡和 10 卡一般采用机架式 4U 机箱,而

且需要 PCIE 扩展母版,较为常见的是超微 4028,这些配件自己 DIY

并不方便,所以推荐可以直接由供应商配齐,或者自己买准系统,再

选择 gpu 和硬盘。需要说明几点:

1)个人在实验室里还是喜欢机架式机箱,即使是 4 卡甚至单卡,因

为可以方便地插一些采集卡或板级示波器,可以兼顾硬件调试、图像

采集和图像处理研究,但要注意主板接口,很多板卡是 PCI 的。

2)8 卡或 10 卡主机一定要上机柜,而且单独房间放置,因为噪声很

大。

3)虽然是老板花钱但还是有预算的,我还没有见过哪个实验室上 v100

的,8 卡或 10 卡一般还是 1080ti 或 titan xp;k80 倒是见过,但那已

经是比较豪的实验室了,不知道是否有学校实验室上多块 v100 的。

3 个人研究工作站,意味着自己出钱,那就要好好计划了,所以展开

细说:

与普通个人电脑不同,深度学习工作站的配置顺序是 GPU 数量和选


型→CPU→主板→机电→硬盘 IO→内存。

最重要的当然是 GPU,确定了 GPU 数量就可以确定 PCIE 通道数,


1)

也就是 CPU 的一个指标,这个指标往往是个人电脑配置容易忽视的,

也是牙膏厂喜欢缩水的地方(包括主板芯片通道)
。常见的 8700k 是

16 通道,可以满足 GPU PCIE3.0 ×16 的需求。×16 可以说是满血,但

实际上×16 和×8 性能差别微乎其微,所以一般计算所需通道数量的时

候按照×8 计算。例如,单卡的话可以随便选择;双卡则至少是 8×2,

也就是 16 个 PCIE 通道。

需要注明的是,上述是直连 CPU 通道,而 m.2(×4)


、USB、SATA

则可以走南桥 PCH DMI2.0/3.0。

关于 GPU 型号,根据研究性价比最高的是 1080ti,如果只是随便搞

搞,可以选择 1070ti,不怎么缺钱就 titan xp。钱特别多就不讨论了。

2)确定了 PCEI 通道数,就需要明确 CPU 和主板的选择,由于深度学

习不依赖 CPU,只要主频不过低拖后腿即可,且一卡一核;因此主要

是根据 pcie 通道来选择。

一般单卡或双卡可以上 8700K/8700 和 Z370 主板;而双卡也可以选择

7800x 或 7820x,这两款 cpu 有 28 个 PCIE 通道,


所以你可以实现×16+×8

的配置,或者三卡配置 3×8,而且现在 7800x 非常便宜,只是 x299

主板较贵。而且 x299 被称为大号 z270,因为 m.2 无法直连 cpu,而

是连接南桥 pch,所以 m.2 要和 usb、sata 等一系列接口和设备抢通

道。只是接一个,不组阵列也是可以的。

至于 4 卡,则有多种配置方法,较为复杂,可分为 6850K+x99 方案、


7900x+x299 方案、E5+c612 方案以及线程撕裂者方案。其中:

a)6850K(40 lane)+华硕 x99 ws/E 是最经典的方案,该主板用料扎

实,通过 plx 芯片实现了四路显卡(一般的 x99 或 x299 都是三路)


价格略贵(3700),但还是远低于 x299 ws/E,而且 6850K 的价格不

贵。

b)7900x+华硕 x299 ws/E。板 U 价格较贵,都要 1 万+了,而且存在

上述问题,存储扩展性一般,虽然对个人电脑影响没有那么大。所以

除非是不缺钱,而且有其它用途对 U 性能要求较高,不然单纯就深

度学习而言性价比不高。

c)E5+C612/621,E5 16XX+超微 x10SRA 可能是目前成本最低的 4

卡组合了,或者捡捡 26XX 的正显版,还是很多的。x10DRG-Q 则是

非常平衡的板子,双 U 利器,但是要有匹配的机箱才行。

d)1900x+x399 主板,A 家性价比还是高,虽然本领域 A 家的支持还

是要弱一些,但是这个可能是目前性价比最高的平台了。如果无法忍

受老 U,不想玩服务器 U 的,或在意保修,那么这个就是最好的选

择了。不过建议等 2900x,对深度学习支持更好。需要注意的是散热

支持,建议利民或猫头鹰兼容 TR4 的散热。

另外,微星主板有数起 linux 下无法工作的情况,由于要用 ubuntu,

所以建议华硕或技嘉。

3)由于要长时间高负荷工作,机电在工作站配置中是不可忽视的重

点。电源不要省钱,全模组金牌是必须的,因为全模组做到金牌难度

更 大 , 往 往 用 料 更 好 。 单 卡 就 是 650W-750W 电 源 ; 双 卡 就 是
1000-1200W;四卡 1500W 以上。要便宜点的就选长城巨龙,好一些

的无非是海啸、EVGA(超级花方案,但价格和保修更美好)。NVIDIA

四卡机配的是 EVGA 1600 G2,我觉得是性价比较高的选择,好一些

可以选 T2,壕一些那当然是贼船 AX 了。

桌面级个人用机箱肯定是塔式,要求是槽数满足要求,散热较好。这

里可以看一下 jd 深度学习工作站选用的机箱,一般是贼船 air 540 和

追风者 614,可为 4 卡留下空间。这两款的散热都很不错。我自己和

实验室都用的 air 540。如果觉得贵了那就追风者,还觉得贵了那就黑

洞。

CPU 散热,一体水冷是比较好的方案,尤其是 air 540 和 H115i 是绝

配,我们目前也在用,如果不喜欢一体水冷也可以上风冷,这里不多

说。

4)硬盘 IO 对于速度影响是比较大的。由于个人工作站一般是不会上

磁盘阵列,因此这里比较建议走 pcie 通道的 nvme 固态硬盘,推荐的

是 sm961 256g 或 512g。

5)内存的考虑顺序是容量优于时序优于频率,这里是有具体研究的。

所以不用追求高频内存,一般根据显存大小配置内存,内存容量是显

存的 1-2 倍。一般单卡配 32G,双卡 32G 或 64G;四卡 64G、96G 或

128G。其它除了和散热的兼容性外就没什么要注意的了,ECC 也没

有那么重要。c14 更好,觉得贵了普通的即可。

4 下面是几台在用的主机配置,供参考:
1)自己在家用的 itx 深度学习配置(其实就是个游戏主机,机箱和主

板一换就是一个普通 atx 的深度学习工作站或者游戏主机)



项目 型号 价格
板U 8700K+技嘉 z370N wifi 3569
GPU EVGA 1080ti SC2 Gaming icx 1 块(切记要双槽) 5699
最近 EVGA 1080ti sc black 有车价,5099,但现在预定结
束了,可以等新卡;实在缺钱就用 1070ti 吧

内存 海盗船复仇者 3000Hz 16g×2 2100

固态硬盘 三星 sm961 256G 679

机械硬盘 东芝 MD04ACA400 128M 7200 转 4T(车价) 669

电源 海韵 ultra prime 650W(机箱要求 14cm,选择不多) 709

机箱 骨伽 qbx(价格美好,长度够用,所以选了) 289

散热 猫头鹰 c14s(风扇下挂可支持 ncase m1 和 qbx 这类机箱, 499


但内存不能高梳)

其它风扇 前 8cm 和后 9cm 猫扇;上 12cm 选用 gelid,2 把 300

合计 14513

2)实验室在用的双卡个人深度学习工作站,直接从供应商那里买的,

所以不是特别喜欢……
项目 型号 价格
板U 8700K+华硕 prime Z370-F 4000
GPU Dell 1080ti 公版 2 块(自己配选最便宜的 1080ti 即可) 12200

内存 三星 DDR4 2400Hz 16G×4 4800

固态硬盘 英睿达 bx300 240G SATA 接口(实验室用小了),建议上 399


SM961 512G

机械硬盘 希捷 ST4000NM0035 7200 转 128M 4T 1000

电源 长城巨龙 1250W(可以选海韵 ultra prime 1000W、EVGA 999


1000W G2/G3/P2)
机箱 海盗船 air 540 900

散热 海盗船 H115i(可选风冷) 999

合计 25297

3)实验室在用 4 卡机配置
项目 型号 价格
CPU E5 2680 v4 正显版(CPU 可省钱,捡垃圾看你心有多大) 8400
主板 超微 x10SRA(4 卡最便宜主板) 2300
GPU 技嘉 1080ti 公版 4 块(4 卡机尽量公版,不然可能插不 26000
下,技嘉的小白是目前渠道比较畅通的公版了,价格不
具备参考性)

内存 三星 DDR4 2133Hz 32G×4 ECC 9000

固态硬盘 三星 860pro 1T 4 块 13000

机械硬盘 无
机电 4U 机架式机箱,长城巨龙 1560W,被动散热 2000

合计 60700

4)自己在用的 4 卡主机
项目 型号 价格
CPU i7 6850K 2558

主板 华硕 x99 ws/E sage 3600


GPU 技嘉 1080ti 公版 4 块(4 卡机尽量公版,不然可能插 26000
不下,如果能上车,其实可以便宜不少)
内存 幻灯戟 3200 c16 16G×4 4756

固态硬盘 sm961 512G 1579

机械硬盘 东芝 MD04ACA400 128M 7200 转 4T(车价) 669


电源 EVGA 1600W G2(自己喜欢可改为 T2) 2399

机箱 海盗船 air 540 900

散热 猫头鹰 D15s 579

其它风扇 利民 TY-143 SQ 2 把,上装出风,绝对利器 200

合计 43240

上面这个四卡配置应该说还有降价空间,如果能上 EVGA 的车,显卡

就可以便宜 5k+,不加装风扇,机箱和电源降一下,还可以省 1k+。

选择 1900x+x399 套装还能省一些。应该说是目前性价比比较高的了。

5)线程撕裂者性价比配置
项目 型号 价格
板U 1900x+华硕 x399-A(建议等新 U) 5599
GPU EVGA 1080ti black sc 4 块(不考虑前两天 5100 的车价) 22800

内存 芝奇 2400 16G×4 4000

固态硬盘 sm961 512G 1579

机械硬盘 东芝 MD04ACA400 128M 7200 转 4T(车价) 669

电源 EVGA 1600W G2(自己喜欢可改为 T2) 2399

机箱 追风者 614 449

散热 利民 银箭 TR4 699

其它风扇 无
合计 38194

再多说一点,也算是给仍在读的学生的一点建议吧:

正如前面说的,这两三年深度学习和神经网络非常火,我自己在招聘

的时候,很多应届生或在职社招的应聘者,尤其是计算机、IT、电子

相关专业领域的,都有自学过一些深度学习的知识,并用某种主流框

架进行训练的经验。这说明了两点:一个是这个方向比较热;另一方
面则是门槛确实不高。这里的门槛包括几个含义,一是研究条件,这

也是大家纷纷进入该领域且中国人在该领域颇有建树的关键,不需要

大型设备也不需要工艺积累(看看半导体…),硬成本低;一个 8 卡

或 10 卡的工作站对于比较好的实验室而言开支也并不太大,个人用

个电脑即可,还可以兼顾打游戏,或者干脆租 AWS。第二则是对于很

多人而言,个人技术基础要求不算高,但这点取决于你个人的定位,

也是配这个工作站时最需要去考虑的问题。现在工具非常发达,且不

说 python 语言非常“高级”,caffe、tensorflow 等框架将很多工作变

成了“敲命令行”,公共资源也比较丰富,导致很多学生甚至没有看

过源码。按照我们自己的话说,这是“电子鸦片”
,开发工具越来越

强悍、高级,对个人的数理基础和技术水平要求随之降低,不仅仅是

在 IT、电子技术,在光、机、热很多领域都是如此。但是在实际工作

中,实现和应用是非常重要的,因此,神网训练后模型的压缩、部署

乃至专用芯片的设计是很多企业真正看重的,也是你个人能够脱颖而

出的关键。因此,非常建议再花一点点钱,配上一块开发板,研究嵌

入式平台上高效的实现方法,并且最好能够深入到 RTL 层。当然,这

些对个人天赋有比较高的要求,但事在人为,而且在找工作时接没接

触过相关内容还是比较重要的。

You might also like