上一篇
如何快速安装GPU服务器?详细步骤解析
- 行业动态
- 2025-04-21
- 4013
GPU服务器安装流程包括硬件准备、系统部署及驱动配置,首先安装服务器硬件并连接GPU设备,随后部署操作系统,安装NVIDIA驱动、CUDA工具包等依赖库,配置深度学习框架环境,最后通过测试验证GPU性能及兼容性,需注意硬件兼容性检查和散热管理。
GPU服务器安装流程
准备工作
硬件检查
- 确认服务器型号、GPU型号(如NVIDIA A100、H100等)与主板、电源的兼容性。
- 检查电源功率是否满足GPU需求(一般高端GPU需要额外供电)。
- 确保机箱散热设计合理,支持多GPU的散热风道或液冷方案。
系统选择
- 推荐使用Linux系统(如Ubuntu 22.04 LTS、CentOS 7/8),兼容性及稳定性更强。
- 若选择Windows Server,需提前下载对应版本的GPU驱动。
工具与资源准备
- 下载GPU驱动、CUDA Toolkit、cuDNN等必备软件(建议从NVIDIA官网获取最新版本)。
- 准备SSH工具(如PuTTY)、系统安装U盘或镜像文件。
安装操作系统
系统部署
- 通过U盘或IPMI远程管理工具安装Linux/Windows系统。
- 分区建议:为系统盘分配至少100GB空间,GPU相关组件需较大存储。
基础环境配置
- 更新系统:
sudo apt update && sudo apt upgrade -y # Ubuntu/Debian sudo yum update -y # CentOS
- 安装必要依赖库:
sudo apt install build-essential dkms linux-headers-$(uname -r) # Ubuntu sudo yum groupinstall "Development Tools" # CentOS
- 更新系统:
安装GPU驱动
禁用默认显卡驱动(仅Linux)
- 修改配置文件:
sudo nano /etc/modprobe.d/blacklist-nouveau.conf
添加以下内容并保存:
blacklist nouveau options nouveau modeset=0
- 更新内核并重启:
sudo update-initramfs -u sudo reboot
- 修改配置文件:
安装官方驱动
- 进入命令行模式(Linux按
Ctrl+Alt+F3
),执行:sudo sh NVIDIA-Linux-x86_64-535.129.03.run # 替换为实际驱动文件名
- 按照提示完成安装,重启后通过
nvidia-smi
验证驱动状态。
- 进入命令行模式(Linux按
配置CUDA与cuDNN
安装CUDA Toolkit
- 运行CUDA安装包(需与驱动版本匹配):
sudo sh cuda_12.2.2_535.104.05_linux.run
- 配置环境变量:
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc
- 运行CUDA安装包(需与驱动版本匹配):
安装cuDNN库
- 解压下载的cuDNN压缩包,复制文件到CUDA目录:
sudo cp cuda/include/cudnn*.h /usr/local/cuda/include sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64 sudo chmod a+r /usr/local/cuda/include/cudnn*.h /usr/local/cuda/lib64/libcudnn*
- 解压下载的cuDNN压缩包,复制文件到CUDA目录:
环境验证与测试
基础验证命令
- 检查GPU状态:
nvidia-smi # 查看GPU运行情况 nvcc --version # 验证CUDA版本
- 运行CUDA示例程序:
cd /usr/local/cuda/samples/1_Utilities/deviceQuery sudo make && ./deviceQuery
- 检查GPU状态:
深度学习框架测试
- 安装PyTorch或TensorFlow:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
- 运行测试代码,确认是否调用GPU:
import torch print(torch.cuda.is_available()) # 输出应为True
- 安装PyTorch或TensorFlow:
容器化支持(可选)
安装Docker与NVIDIA Container Toolkit
- 安装Docker:
curl -fsSL https://get.docker.com | sh
- 配置NVIDIA容器运行时:
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt update && sudo apt install -y nvidia-container-toolkit sudo systemctl restart docker
- 安装Docker:
验证GPU容器
- 运行测试容器:
docker run --rm --gpus all nvidia/cuda:12.2.2-base-ubuntu22.04 nvidia-smi
- 运行测试容器:
常见问题与解决方案
- 问题1:驱动安装失败
- 检查内核版本与驱动兼容性,或尝试使用
--no-opengl-files
参数安装。
- 检查内核版本与驱动兼容性,或尝试使用
- 问题2:CUDA路径错误
- 确认环境变量配置正确,重启终端或执行
source ~/.bashrc
。
- 确认环境变量配置正确,重启终端或执行
- 问题3:GPU未被识别
- 使用
lspci | grep -i nvidia
确认硬件是否被系统检测到。
- 使用
引用说明
本文参考了以下资源:
- NVIDIA官方驱动安装指南(https://docs.nvidia.com/datacenter/tesla/tesla-installation-notes/index.html)
- Ubuntu系统安装文档(https://ubuntu.com/server/docs)
- Docker官方文档(https://docs.docker.com/engine/install/)
结束)