人工智能笔记

小马同学
人工智能
2024-06-17
110热度
0评论

深度学习框架：

PyTorch：在易用性和灵活性方面被认为比较好，其动态计算图使得调试和实验更加方便。另外，PyTorch的文档和社区支持也比较好。
TensorFlow：在生产环境中更加稳定和可靠，从而更适合大规模项目。此外，TensorFlow在分布式计算和移动端部署方面有一定优势。

参考：

CUDA安装&cuDNN、TensorRT版本匹配_cuda和cudnn版本匹配-CSDN博客 https://blog.csdn.net/initative/article/details/138213992

Windows下安装Pytorch和CUDA及配置CUDNN教程_windows pytorch-CSDN博客 https://blog.csdn.net/m0_57029521/article/details/136684991

版本对应关系：

查看显卡对应的计算能力，本机 RTX 4060 Laptop 的计算能力为8.9：
https://developer.nvidia.com/cuda-gpus

查看支持计算能力的TensorRT版本和适配CUDA版本和cuDNN版本：
https://docs.nvidia.com/deeplearning/tensorrt/archives/index.html#trt_8
https://docs.nvidia.com/deeplearning/tensorrt/archives/tensorrt-853/support-matrix/index.html

教程开始：

1、查看显卡驱动版本及最高支持的CUDA版本，CMD运行：

源自：https://blog.csdn.net/chengyq116/article/details/105886747/
nvidia-smi
输出：
NVIDIA-SMI 537.70 Driver Version: 537.70 CUDA Version: 12.2

可更新驱动，下载地址：
https://www.nvidia.cn/Download/index.aspx?lang=zh-cn
https://www.nvidia.cn/geforce/drivers/

5、安装 CUDA（注：驱动支持选定的CUDA版本时，若不想切换显卡驱动，可选择自定义安装，取消勾选Driver components），并配置环境变量（我安装的时候自动给配置好了）：

CUDA_PATH：C:Program FilesNVIDIA GPU Computing ToolkitCUDAv11.8
CUDA_PATH_V11_8：C:Program FilesNVIDIA GPU Computing ToolkitCUDAv11.8
Path：C:Program FilesNVIDIA GPU Computing ToolkitCUDAv11.8bin
Path：C:Program FilesNVIDIA GPU Computing ToolkitCUDAv11.8libnvvp

检验CUDA是否安装成功：
nvcc -V

6、安装 cuDNN，将压缩包中文件拷贝到CUDA安装的路径下即可。

检验cuDNN是否成功安装：
cd C:Program FilesNVIDIA GPU Computing ToolkitCUDAv11.8extrasdemo_suite
输入：bandwidthTest.exe 输出：Result = PASS
输入：deviceQuery.exe 输出：Result = PASS

7、安装 TensorRT，解压压缩包，并配置TensorRT的lib路径到环境变量Path中即可。

Path：D:mysoftTensorRT-8.5.3.1.Windows10.x86_64.cuda-11.8.cudnn8.6TensorRT-8.5.3.1lib
注：为了方便部署onnx模型，可将TrT中bin文件夹下可执行文件trtexec.exe文件拷贝到lib文件夹下，这样直接编辑bat脚本即可完成模型的部署。

8、安装 Anaconda：

下载地址：https://www.anaconda.com/download

安装后配置Path环境变量：D:anaconda3Scripts

验证是否安装成功：conda --version

为什么要使用conda？
如果我们不安装Anaconda的话，我们安装第三方库就必须要用pip install xxx去安装，当我们安装的库多了，就会形成文件紊乱和繁杂问题。而且pip install方法会默认把库安装在同一个路径中，假如当你去做项目时，别人给你的程序用的库是低版本的，而你自己通过pip安装的是高版本的库，由于存在兼容问题，你的库不能运行该程序，而你也不可能为了这个而删去你的高版本的库去下载这个符合环境的低版本库吧，所以这及其繁琐和不方便。

这时Anaconda的作用就出来了！它能够创建一个虚拟环境，这个虚拟环境和你的主环境是分开的，就好像宿舍楼一样，一栋大宿舍楼有很多宿舍房间组成，每个房间都住着人，但是他们都是独立分开的，互不影响。如果你不想住宿，你随时可以退宿。也就是说，如果你创建的虚拟环境你不想要了，占内存了，你随时可以移走删除。

conda 常用命令：

列出conda管理的所有环境：
conda env list

创建test虚拟环境：
conda create -n test python=3.7

切换到base环境：
activate

切换到test环境：
activate test

删除test环境及下属所有包：
conda remove --name test --all

安装第三方包
conda install requests
或
pip install requests

卸载第三方包
conda remove requests
或
pip uninstall requests

查看该环境的所有包：
conda list
或
pip list

导出当前环境的包信息：
conda env export > environment.yaml

用配置文件创建新的虚拟环境：
conda env create -f environment.yaml

9、切换到虚拟环境，安装 Pytorch 深度学习框架：

下载地址：https://pytorch.org/get-started/previous-versions/#linux-and-windows-13

pip install torch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cu118

验证是否安装成功，打开命令行输入python进入交互式编辑，输入以下命令：
import torch
x = torch.rand(5,3)
print(x)

验证Pytorch能否使用GPU，导入torch模块：
import torch
print(torch.cuda.is_available()) #输出True则当前Pytorch能够正常使用CUDA，返回False则说明配置有问题不能正常使用CUDA。

注：如果上一步中安装 Pytorch 时下载慢可以使用离线文件安装：
下载地址：https://download.pytorch.org/whl/torch_stable.html
cu118/torch-2.3.0%2Bcu118-cp311-cp311-win_amd64.whl
cu118/torchvision-0.18.0%2Bcu118-cp311-cp311-win_amd64.whl
cu118/torchaudio-2.3.0%2Bcu118-cp311-cp311-win_amd64.whl
安装：
pip install E:桌面torch-2.3.0+cu118-cp311-cp311-win_amd64.whl
pip install E:桌面torchvision-0.18.0+cu118-cp311-cp311-win_amd64.whl
pip install E:桌面torchaudio-2.3.0+cu118-cp311-cp311-win_amd64.whl

10、# 切换到虚拟环境，查找合适的MMCV版本，并下载安装

https://mmcv.readthedocs.io/zh-cn/latest/get_started/installation.html
安装：
pip install mmcv==2.2.0 -f https://download.openmmlab.com/mmcv/dist/cu118/torch2.3/index.html

11、切换到虚拟环境，安装 tensorboard：

pip install tensorboard

from torch.utils.tensorboard import SummaryWriter
writer = SummaryWriter("logs")
for batch_idx, (data, target) in enumerate(train_loader):
    writer.add_images("epoch：{}".format(epoch), data, batch_idx)
writer.add_scalar("epoch loss:", ave_loss, epoch)
writer.close()

终端执行：tensorboard --logdir=logs --port=6006