低成本攒机跑深度学习AI

04-19 1195阅读 0评论

攒机心得

前言
一、入手GPU
二、主板建议
- 1.AMD系列
- 2.Intel系列
- 3.X99系列
- 三、电源和机箱建议
- 四、安装系统以及cuda
- 五、windows端安装与操作
- 总结
  前言
  
  随着人工智能的不断发展，深度学习这门技术也越来越重要，AI绘图、深度学习的训练都需要GPU计算节点，随着GPU价格的回落，普通人搭建GPU计算集群用来深度学习也成为了致富新道路。本文深度记录了本人一些丐中丐GPU集群攒机经验，给各位友友们分享~
  
  一、入手GPU
  
  GPU种类繁多，无论是矿卡还是新卡，茫茫多的GPU在选择的时候多少让人有点选择困难。但其实不考虑打游戏，单纯用于AI的话，最具性价比的卡按性能、显存和能耗以及个人主管见解来看，排名如下：
  1. Nvidia Telsa P100（250W 16GB）性能较强，不过没有Tensor core，实际运行双精度求解要比别的卡省显存，所以别看显存只有16GB，用起来可能赶上32GB的显存，海鲜市场价大概1300~1600左右，性价比还是可以的；
  2. Nvidia Telsa P40 (250W 24GB) 目前很香的一张卡，大概1/3个3090，没有Tensor core，计算起来大概VGG-19数据集体感5~10分钟左右，没法测那么准但总之就是可以接受，同时24G大显存，满足你大模型的梦想，可以说是穷人跑大模型的首选了。缺点就是你一搜P40几乎都是华为的手机，而且最近海鲜市场的P40不知为何都从南京一个地方发货，价格800元-1000。还有个缺点就是基本上应该都是矿卡；
  3. Nvidia Telsa K40/M40 (250W 24GB) 这个档次的卡主打一个丐帮AI，性能不性能无所谓，省不省电无所谓，爷有的是时间炼丹。没有Tensor core，跑什么都一天起步（虽然有些夸张，但重点就是突出慢），价格五百左右很美丽；
    注意上述三张卡都没有主动散热，所以要么买个3D打印的小风扇，要么自己手动改散热（有可能导致之后卖不出去）。
  4. Nvidia RTX 2080Ti/2080 (250W 11GB) 性能上很强，有Tensor core（20系列以上都有），用来AI绘图绰绰有余，但跑大模型就不行了，价格上2800左右，目前有所上涨，这卡以及后面介绍的卡都有一个前面没有的优势就是可以打游戏，也就是可以当做主力机，所以如果不是有很大的模型要跑，2080的性价比反而更高，而且最近也有了改22G显存的方案（不太推荐，改坏了等于三千打水漂）。缺点就是基本上应该都是矿卡；
  5. Nvidia RTX 3060 12G版 (170W 12GB) 性能上大概一个半的P40（用3090为标杆对比，主要我没实际拿这俩卡跑benchmark比过），显存上12GB足够九成的AI模型运行了（什么你说你模型分分钟20G？回去重新做数据预处理去），当然也不一定，毕竟不是所有的数据都好做的，尤其是一些需要end-to-end的玩法。这卡应该海鲜市场也都是矿卡，大概1500~1600；
  6. Nvidia GTX 1080Ti (250W 10GB) AI老友，众多实验室机房淘汰下来大量1080ti，以及矿山里的大量1080ti都在海鲜市场蓄势待发，和P40一个性能，由于可以打游戏所以价格皮鞭在1200~1800左右，成色这玩意纯属没啥用你看也看不出来，金手指也未必能辨别的那么准确，就当是矿渣，要是1300以下拿下那还行，太贵了的话你就当是打游戏用，那也不赶3060，总之能跑但不太推荐；
  7. Nvidia RTX 2070 (300W 8GB) 打游戏不错，用来AI比较微妙。1000左右的价格让它兼具游戏与AI的性价比，同时20系列以后都有tensor core，不过需要对计算有一定的能力来驾驭8G以内的现存；
  8. Nvidia RTX 3090 (350W 24GB) 性能和显存上无论如何都很适合AI，打游戏也很不错；
  9. Nvidia RTX 4090 (450W 24GB) 这个目前也变成奢侈品了；
  10. Nvidia Telsa A100 (400W 48GB) 直接买是买不到的，这个得去海鲜市场，但是价格在十万以上，不是低成本讨论的范畴；
  11. Nvidia Telsa V100 (400W 16/32GB) 价格上来说三万多，现存不是太有优势，性能上还可以，并且有tensor core，但不是很推荐；
  二、主板建议
  
  1.AMD系列
  
  目前测试B450M以上（B550M、B650M等）都可以使用Telsa显卡，但要保证BIOS是最新版
  并且bios需要有above 4G decoding选项
  注意该类型主板一般不支持服务器内存！！
  当然你要是用EPYC的另说，富哥应该不太需要担心这些
  
  更新Bios驱动方法如下
  先去官网下载最新的驱动
  得到一个压缩文件夹，找到一个U盘，格式化成FAT32格式，将压缩包的东西解压进U盘里，接着U盘插到主板上
  进入Bios
  进入Bios的Flash模式
  选择唯一一个描述不是DIR的文件
  接下来就会开始更新BIOS，确保不要断电
  Tips：如果你没有用来亮机的卡，确保VGA detection的选项是“Ignore”
  注意选择CPU的时候看清楚是否支持128G内存，理论上3500x以上锐龙都可以，3200g到3400不确定，再往下肯定是不行的。
  
  2.Intel系列
  
  理论上Prime Z170以上的主板都可以支持above 4g decoding，但要注意更新到最新bios，更新方法与amd系列一样，这里不在赘述；
  注意选择CPU的时候看清楚是否支持128G内存，理论上10代以上i5、i7、i9都可以，貌似i3是全系不支持128G及以上的。
  注意该类型主板一般不支持服务器内存！！
  
  3.X99系列
  
  首推华南金牌X99，本人选择的是华南金牌X99-f8（最大内存256GB），虽然这个系列主板会有很多小问题，但对于一个丐版AI服务器来说，这个板对得起它的价值，更何况这个主板支持使用服务器内存，意味着你可以以很便宜的价格（大概200多买到32G）拿到服务器，运气好的直接去什么废弃机房捞，DDR4的机房内存一大堆
  X99适配的CPU有很多，大概范围是LGa2011-3的CPU都支持，详细一点的话那就是cpuCorei7-5960X、i7-5930K、i7-5820KXEONE5-2699v3、E5-2698v3、E5-2695v3、E5-2690v3、E5-2687Wv3、E5-2685v3、E5-2680v3、XeonE5-2670v3、E5-2667v3、E5-2660v3、E5-2650v3、E5-2650Lv3、E5-2640v3、E5-2630v3、XeonE5-2629v3、E5-2623v3、E5-2622v3、E5-2620v3、E5-2609v3、E5-2603v3、E5-1680v3、XeonE5-1650v3、XeonE5-1630v3、XeonE5-1620v3
  价格都在100-200左右，贵的没必要，跑AI不是太吃CPU，当然也别太电子垃圾了。
  
  放一张X99-f8的板子，三个Pcie插槽，三卡齐飞，甚至可以用来玩分布式，不过不要对带宽抱太大期望，咱主打一个性价比AI，你不嫌他烂，他不嫌你穷。
  然而X99主板在2018年的Bios才推出above 4g decoding，因此想要用来跑AI，大概率需要你升级Bios。
  X99主板升级Bios和其他主板不太一样，需要做一个dos系统U盘
  这里推荐Rufus，一个快速做装机盘的软件，自带dos系统
  这里选择FreeDOS即可，会自动刷进去一个dos系统，记住是FAT32格式
  之后点击开始，等待完成即可
  
  进入X99-f8的官网，下载最新的bios
  http://www.huananzhi.com/download1.php?lm=13
  将压缩包里的文件直接放进U盘根目录里，
  接着U盘插到主板上，设置引导进入U盘里的DOS系统
  输入你放在U盘里的exe文件（比如上图的fpt.exe）
  之后就会自动开始更新bios的过程，中间会不断弹出一些yes or no的选项，无脑全输入y或则yes就可以
  
  更新完成后按ctrl+alt+del重启，开机就能看到logo了
  
  三、电源和机箱建议
  
  这个部分其实很简单，长城1000W电源或者航嘉1000W电源，价格100（海鲜市场）-500左右。想要安全一些的上EVGA的电源，价格800（海鲜市场）-1000左右，有些EVGA的也能便宜一些，但就个人来看，其他地方省钱就省了，电源我们整好点不过分。
  
  机箱方面，海景房是肯定够放的，PDD上动力火车价格就很美丽，
  既然要丐，那机箱也可以山寨~
  或者直接服务器机箱，可以配上1.5A以上的暴力风扇，也可以选择静音扇，但那样就必须要搭配3D打印的显卡风扇了。
  
  四、安装系统以及cuda
  
  windows系统以及cuda应该不是很需要介绍如何安装了
  这里主要讲解linux系统
  强烈推荐ubuntu20.04系统，基本上支持一切cuda版本以及torch、tf版本，非常好用
  安装ubuntu依然可以使用上述的Rufus，镜像文件选择ubuntu的iso就可以了，注意看好是desktop的还是server的
  进入系统以后记得禁用nouveau
  1.禁用bios中的secure boot，因为secure boot会阻止第三方源安装的驱动，禁用不会带来多大隐患。
  2.禁用nouveau驱动，这是Ubuntu默认的开源显卡驱动，与N卡驱动一起使用会导致兼容性问题，比如卡在登录界面无法进入图形界面。
  创建配置文件：
```
sudo gedit /etc/modprobe.d/blacklist_nouveau.conf
```
  添加
```
blacklist nouveau
options nouveau modeset=0
```
  保存并重启
  输入下列指令查看是否生效
```
lsmod | grep nouveau
```
  如果没有输出那就是生效了
  接着进入纯命令行界面
```
sudo init 3
```
  下载nvidia官网适合版本的驱动，比如cuda12
  https://developer.nvidia.com/cuda-downloads
  一路选择系统以及需要的文件类型，比如这里选择runfile
```
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda_12.1.0_530.30.02_linux.run
sudo sh cuda_12.1.0_530.30.02_linux.run
```
  输入accept
  
  选择install
  等待安装完成即可
  输入
```
nvidia-smi
```
  五、windows端安装与操作
  
  这里就不赘述了，有个UP讲的挺好的，我直接给贴出来
  https://www.bilibili.com/video/BV1WL411h7r3/?spm_id_from=autoNext&vd_source=9f8783814f0f833528cc3c7bf9691f55
  
  总结
  
  丐版的AI服务器长时间开机，所以一定要注意清灰以及电源的安全性，另外硬盘最近价格也不高了，可以顺势多屯点硬盘，让AI服务器不仅可以训练人工智障，同时当个NAS看看电影，岂不美哉~