当前位置：首页 > 行业动态 > 正文

如何在GPU云服务器上安装CUDA？完整步骤详解

admin
行业动态
2025-05-08
2022

在GPU云服务器上安装CUDA需先确认显卡型号兼容性，从NVIDIA官网下载对应版本CUDA工具包，运行安装脚本并按提示配置环境变量，安装后通过nvidia-smi和nvcc –version验证驱动及CUDA版本，确保与深度学习框架版本匹配。

在部署GPU云服务器时,安装CUDA是发挥硬件计算性能的关键步骤，本文将以通俗易懂的方式，结合官方推荐流程，详细介绍CUDA的完整安装过程，并提供验证方法与常见问题解决方案。

安装前的必要准备

确认GPU型号与兼容性
- 通过命令 lspci | grep -i nvidia 查看GPU型号
- 访问NVIDIA CUDA兼容性列表，确认GPU支持的CUDA版本
- 主流云平台（如AWS、阿里云）通常会在实例详情页面标注支持的CUDA版本
卸载旧版驱动（如已安装）
```
sudo apt purge nvidia*  
sudo reboot
```

安装系统依赖项

如何在GPU云服务器上安装CUDA？完整步骤详解第1张

sudo apt update  
sudo apt install build-essential gcc make perl dkms linux-headers-$(uname -r)

CUDA Toolkit安装步骤

方法1：通过官方仓库安装（推荐）

添加NVIDIA仓库

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin  
sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600  
sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/3bf863cc.pub  
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /"

安装CUDA Toolkit
```
sudo apt update  
sudo apt install cuda
```

方法2：手动下载安装包

访问CUDA Toolkit下载页选择对应版本

执行安装命令（以CUDA 12.2为例）：

wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda_12.2.2_535.104.05_linux.run  
sudo sh cuda_12.2.2_535.104.05_linux.run

环境配置与验证

配置环境变量
在 ~/.bashrc 文件末尾添加：

export PATH=/usr/local/cuda/bin:$PATH  
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

执行 source ~/.bashrc 使配置生效

验证安装结果

检查GPU驱动状态：

nvidia-smi  # 应显示GPU信息和CUDA版本

验证CUDA编译器：
```
nvcc --version  # 输出编译版本号
```

常见问题排查

问题现象	解决方案
`nvidia-smi` 报错	执行 `sudo modprobe nvidia` 加载内核模块
CUDA版本不匹配	通过 `sudo update-alternatives --config cuda` 切换版本
环境变量未生效	检查是否遗漏 `source ~/.bashrc` 或重启终端

注意事项

版本选择策略
- 机器学习框架需求：TensorFlow/PyTorch官网查看推荐的CUDA版本
- 长期支持版（LTS）更适合生产环境
云平台特殊要求
- 部分云服务器需先安装厂商定制驱动（如阿里云的GPU驱动）
- 公有云实例可能需在控制台开启GPU直通模式
维护建议
- 定期运行 sudo apt upgrade cuda 更新安全补丁
- 使用/usr/local/cuda/samples中的测试用例验证计算性能