上一篇
如何在GPU服务器上安装CentOS系统?
- 行业动态
- 2025-05-08
- 6
在GPU服务器上安装CentOS系统需先确认硬件兼容性,下载对应ISO镜像并制作启动盘,安装过程中需选择最小化或自定义配置,特别注意分区及驱动安装,完成后需配置NVIDIA显卡驱动及CUDA工具包,并通过nvidia-smi命令验证GPU识别状态,确保深度学习或计算任务正常运行。
在GPU服务器上安装CentOS操作系统是搭建高性能计算、深度学习或图形渲染环境的基础步骤,本文将以专业性、权威性、可信度(E-A-T)为核心,提供详细的安装指南,帮助用户快速完成配置并优化性能。
准备工作
硬件确认
- 确保服务器支持CentOS系统(建议使用x86_64架构)。
- 确认GPU型号(如NVIDIA Tesla/A100、AMD Instinct等),需与驱动兼容。
- 准备至少8GB的U盘或通过IPMI远程挂载ISO镜像。
系统选择
- 推荐版本:CentOS 7或CentOS Stream 8(根据应用场景选择,CentOS 7长期支持至2025年)。
- 下载官方ISO镜像:从CentOS官方仓库获取,验证SHA256校验值。
网络与驱动规划
- 提前规划IP地址、网关和DNS,确保安装后能联网更新驱动。
- 对于NVIDIA GPU,需下载对应版本的NVIDIA驱动和CUDA Toolkit。
安装CentOS系统
启动安装介质
- 通过U盘或IPMI挂载ISO,进入安装界面。
- 选择“Install CentOS”并按需调整语言、时区(建议设为UTC)。
分区与存储配置
- 自动分区:适用于新手,系统自动分配
/boot
、swap
和分区。 - 手动分区(推荐):
/boot
:1GB(ext4)。swap
:根据内存大小设定(通常为内存的1-2倍)。- :剩余空间(XFS或ext4)。
- 启用LVM以便后续扩展。
- 自动分区:适用于新手,系统自动分配
软件选择
- 基础环境选择“Minimal Install”,减少不必要的依赖冲突。
- 勾选“Development Tools”以支持编译驱动。
网络与主机名
- 配置静态IP或DHCP,设置主机名(如
gpu-server01
)。 - 开启网络连接,确保安装过程中可下载更新。
- 配置静态IP或DHCP,设置主机名(如
完成安装
- 设置root密码并创建普通用户(建议禁用root远程登录)。
- 重启服务器,进入新系统。
安装GPU驱动(以NVIDIA为例)
禁用Nouveau驱动
- 编辑文件:
sudo vi /etc/modprobe.d/blacklist-nouveau.conf
添加以下内容:
blacklist nouveau options nouveau modeset=0
- 更新initramfs并重启:
sudo dracut --force sudo reboot
- 编辑文件:
安装依赖环境
- 更新系统并安装开发工具:
sudo yum update -y sudo yum install -y kernel-devel kernel-headers gcc make
- 更新系统并安装开发工具:
安装NVIDIA驱动
- 赋予驱动文件执行权限并安装:
chmod +x NVIDIA-Linux-x86_64-*.run sudo ./NVIDIA-Linux-x86_64-*.run
- 根据提示接受协议,忽略“Xorg配置”选项(服务器通常无图形界面)。
- 赋予驱动文件执行权限并安装:
验证驱动状态
- 执行命令查看GPU信息:
nvidia-smi
若显示GPU型号、温度和内存占用,则驱动安装成功。
- 执行命令查看GPU信息:
安装CUDA Toolkit(可选)
下载与安装
- 从NVIDIA CUDA下载页选择对应版本。
- 使用rpm包安装:
sudo rpm -i cuda-repo-*.rpm sudo yum clean all sudo yum install -y cuda
配置环境变量
- 编辑
~/.bashrc
文件:echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc source ~/.bashrc
- 编辑
验证CUDA
- 编译并运行示例程序:
cd /usr/local/cuda/samples/1_Utilities/deviceQuery sudo make ./deviceQuery
输出“Result = PASS”表示CUDA安装成功。
- 编译并运行示例程序:
系统优化与安全
防火墙配置
- 开放必要端口(如SSH的22端口):
sudo firewall-cmd --permanent --add-port=22/tcp sudo firewall-cmd --reload
- 开放必要端口(如SSH的22端口):
定期更新
- 启用自动安全更新:
sudo yum install -y yum-cron sudo systemctl enable yum-cron
- 启用自动安全更新:
监控工具
安装htop、nmon等工具,实时监控GPU和CPU状态。
常见问题
- 驱动安装失败:检查内核版本与驱动兼容性,确保
kernel-devel
已安装。 - GPU未被识别:重新插拔硬件,或在BIOS中启用PCIe Gen3/4模式。
- CUDA编译错误:确认gcc版本与CUDA要求一致。
引用说明
本文参考了以下资源:
- CentOS官方文档(https://docs.centos.org)
- NVIDIA驱动安装指南(https://docs.nvidia.com/datacenter)
- CUDA Toolkit文档(https://docs.nvidia.com/cuda)