Nvidia AI显卡参数

仅列表介绍目前（2025年）常见的（指淘宝上可以买到的）一些显卡型号，在对比算力时请注意单位中的"TOPS"和”GOPS“。
文章末尾有常用模型参数量与显存占用的介绍。

Tesla P系列

显卡名称核心	Tesla P4 GP104	Tesla P10 GP102	Tesla P40 GP102	Tesla P100 GP100
发布时间	2016年9月	2016年9月	2016年9月	2016年6月
GPU 架构	Pascal	Pascal	Pascal	Pascal
显存大小	8GB	24GB	24GB	16 GB
显存类型	GDDR5	GDDR5X	GDDR5	HBM2
显存位宽	256 bit	384 bit	384 bit	4096 bit
显存带宽	192.3 GB/s	694.3 GB/s	347.1 GB/s	732.2 GB/s
FP64算力（双精度）	89.12 GFLOPS	358.3 GFLOPS	367.4 GFLOPS	4.763 TFLOPS
FP32算力（单精度）	5.704 TFLOPS	11.47 TFLOPS	11.76 TFLOPS	9.526 TFLOPS
FP16算力（半精度）	89.12 GFLOPS	179.2 GFLOPS	183.7 GFLOPS	19.05 TFLOPS
INT8算力	22 TOPS		47 TOPS
最大功耗	75W	150 W	250 W	250 W
备注				有12G显存版

Tesla M系列

显卡名称核心	Tesla M4 GM206	Tesla M10 GM107	Tesla M40 GM200	Tesla M60 GM204
发布时间	2015年11月	2016年10月	2015年11月	2015年8月
GPU 架构	Maxwell 2.0	Maxwell	Maxwell 2.0	Maxwell 2.0
显存大小	4 GB	8 GB * 4	24 GB	8 GB * 2
显存类型	GDDR5	GDDR5	GDDR5	GDDR5
显存位宽	128 bit	128 bit * 4	384 bit	256 bit * 2
显存带宽	88.00 GB/s	88.00 GB/s * 4	288.4 GB/s	160.4 GB/s * 2
FP64算力（双精度）	68.61 GFLOPS	52.24 GFLOPS * 4	213.5 GFLOPS	150.8 GFLOPS * 2
FP32算力（单精度）	2.195 TFLOPS	1.672 TFLOPS * 4	6.832 TFLOPS	4.825 TFLOPS * 2
FP16算力（半精度）
INT8算力
最大功耗	50 W	225 W	250 W	300 W
备注			有12G显存版

M10是在单卡中塞入4个核心，每个核心都带有8G显存，M60则是在单卡中塞入2个核心。虽然这两张卡的面板性能看起来十分优秀，但是实际使用场景十分受限，买了约等于上当受骗。

Tesla 新系列

显卡名称核心	V100 PCIe 32 GB GV100	A100 PCIe 80 GB GA100	H100 PCIe 80 GB GH100	H100 PCIe 96 GB GH100
发布时间	2018年3月	2021年6月	2023年3月	2023年3月
GPU 架构	Volta	Ampere	Hopper	Hopper
显存大小	32 GB	80 GB	80 GB	96 GB
显存类型	HBM2	HBM2e	HBM2e	HBM2e
显存位宽	4096 bit	5120 bit	5120 bit	5120 bit
显存带宽	897.0 GB/s	1.94 TB/s	2.04 TB/s	3.36 TB/s
FP64算力（双精度）	7.066 TFLOPS	9.746 TFLOPS	25.61 TFLOPS	31.04 TFLOPS
FP32算力（单精度）	14.13 TFLOPS	19.49 TFLOPS	51.22 TFLOPS	62.08 TFLOPS
FP16算力（半精度）	28.26 TFLOPS	77.97 TFLOPS	204.9 TFLOPS	248.3 TFLOPS
INT8算力
TF64算力		19.49 TFLOPS
TF32算力		155.92 TFLOPs
BF16算力		311.84 TFLOPS
最大功耗	250 W	300 W	350 W	700 W
备注	有16G显存版	有40G显存版

TF32：Tensor Float 32，英伟达针对机器学习设计的一种特殊的数值类型，用于替代FP32。首次在A100 GPU中支持。由1个符号位，8位指数位（对齐FP32）和10位小数位（对齐FP16）组成，实际只有19位。在性能、范围和精度上实现了平衡。

BF16：Brain Float 16，由Google Brain提出，也是为了机器学习而设计。由1个符号位，8位指数位（和FP32一致）和7位小数位（低于FP16）组成。所以精度低于FP16，但是表示范围和FP32一致，和FP32之间很容易转换。

游戏显卡

显卡名称核心	RTX 5090 GB202	RTX 4090 AD102	RTX 5080 GB203	RTX 4080 AD103
发布时间	2025年1月	2022年9月	2025年1月	2022年9月
GPU 架构	Blackwell 2.0	Ada Lovelace	Blackwell 2.0	Ada Lovelace
显存大小	32 GB	24 GB	16 GB	16 GB
显存类型	GDDR7	GDDR6X	GDDR7	GDDR6X
显存位宽	512 bit	384 bit	256 bit	256 bit
显存带宽	1.79 TB/s	1.01 TB/s	960.0 GB/s	716.8 GB/s
FP64算力（双精度）	1.637 TFLOPS	1,290 GFLOPS	879.3 GFLOPS	761.5 GFLOPS
FP32算力（单精度）	104.8 TFLOPS	82.58 TFLOPS	56.28 TFLOPS	48.74 TFLOPS
FP16算力（半精度）	104.8 TFLOPS	82.58 TFLOPS	56.28 TFLOPS	48.74 TFLOPS
INT8算力
最大功耗	575 W	450 W	360 W	320 W
备注

移动端显卡

显卡名称核心	RTX 5090 Mobile GB203	RTX 4090 Mobile AD103	RTX 5080 Mobile GB203	RTX 4080 Mobile AD104
发布时间	2025年1月	2023年1月	2025年1月	2023年1月
GPU 架构	Blackwell 2.0	Ada Lovelace	Blackwell 2.0	Ada Lovelace
显存大小	24 GB	16 GB	16 GB	12 GB
显存类型	GDDR7	GDDR6	GDDR7	GDDR6
显存位宽	256 bit	256 bit	256 bit	192 bit
显存带宽	896.0 GB/s	576.0 GB/s	896.0 GB/s	432.0 GB/s
FP64算力（双精度）	496.9 GFLOPS	515.3 GFLOPS	384.0 GFLOPS	386.3 GFLOPS
FP32算力（单精度）	31.80 TFLOPS	32.98 TFLOPS	24.58 TFLOPS	24.72 TFLOPS
FP16算力（半精度）	31.80 TFLOPS	32.98 TFLOPS	24.58 TFLOPS	24.72 TFLOPS
INT8算力
最大功耗	95 W	120 W	80 W	110 W
备注

顺便解释一下模型参数量和显存之间的关系，在这之前先引入计算机中存储容量转换的概念：

1byte（字节）=8bit（比特位）
1kb（千字节）=1024byte
1mb（兆字节）=1024kb
1gb（吉字节）=1024mb

模型参数量通常表示为xxB，例如3B、4B、8B、12B等，这里的B是英文单词十亿（billion）的缩写。也就是说，1B的模型指的是它的参数量为10亿。
假设每个参数占用1bit，那么每8个参数占用为1byte。这样的话1B的模型共占用1,000,000,000/8=125,000,000byte，换算一下约等于0.12GB。

然后模型还有一个量化的概念，指的是每一个参数以什么形式存储。例如FP16量化，指的是将每一个参数读取为float16格式。我们来看一下各个量化参数的具体占用：

float64
- 别名：fp64/全精度/双精度/Q64
- 每一个参数占用64bit内存，也就是说一个参数占用8byte。
- 如果1B的模型以float64量化，则占用显存为1,000,000,000*8=8,000,000,000byte。
- 8,000,000,000byte=7,812,500KB≈7,629MB≈7.45GB
- 也就是说，1B模型以float64量化载入，将会占用约7.45G显存。
- 这个精度一般只用于模型训练，因为它可以最大限度地保证精度。
float32
- 别名：FP32/单精度/Q32
- 每一个参数占用32bit内存，也就是说一个参数占用4byte。
- 如果1B的模型以float32量化，则占用显存约3.72GB。
float16
- 别名：FP16/半精度/Q16
- 每一个参数占用16bit内存，也就是说一个参数占用2byte。
- 如果1B的模型以float16量化，则占用显存约1.86GB。
- 这个精度是推理模型的最佳选择，它可以在保证模型质量损失忽略不计的前提下，最大限度地提升模型推理速度。
- 大部分情况下，人们都是用这个精度加载模型并进行推理。除了那些专门为双精度运算优化的显卡以外，绝大多数显卡的FP16运算性能都是最好的。因此使用该精度量化的模型可以有很好的推理速度。
INT8
- 别名：Q8
- 每一个参数占用8bit内存，也就是说一个参数占用1byte。
- 如果1B的模型以INT8量化，则占用显存约0.93GB。
- INT8是一个相对比较“穷”的选项，如果你的显存容量无法以FP16精度加载模型，那么试试INT8也是一个不错的选择。只是相较于FP16，INT8量化通常有着较为明显的质量损失。
  - 有些模型会对INT8精度进行特别优化，以让它们在INT8精度上同样保持高质量。
INT4
- 别名：Q4
- 每一个参数占用4bit内存，也就是说一个参数占用0.5byte。
- 如果1B的模型以INT4量化，则占用显存约0.46GB。
- 超级丐版的精度，模型质量损失非常明显。使用INT4量化加载的文本模型有时候会输出一些牛头不对马嘴的上下文。你应该优先考虑参数量更少的模型，而不是将一个大参数量的模型强行以INT4量化加载到你的显存中。

#硬件

Nvidia AI显卡参数

https://www.hamster3.cn/archives/Nvidia%20AI%E6%98%BE%E5%8D%A1%E5%8F%82%E6%95%B0

作者

叁只仓鼠

发布于

2025年03月01日

更新于

2025年05月23日

许可协议

仓鼠网咖 ZeroTier 组网教程上一篇

GalGame 推荐-纯白夏日下一篇