【卢菁老师说】大模型占用显存的计算方式

TIP! Right-click and select "Save link as..." to download.

VIDEOS
MP4	N/A	480P	Download
MP4	N/A	360P	Download
AUDIO
MP4	N/A	mp4a.40.2	Download
MP4	N/A	mp4a.40.5	Download
MP4	N/A	mp4a.40.2	Download
THUMBNAILS
	JPEG	Origin Image	Download

在这个大模型横行的时代
动辄几十上百亿的参数
对GPU显存要求越来越高
那在玩大模型的时候
到底多少显存才够用
这个是可以根据模型预先计算出来的
当你拿到一个模型首先看模型的版本
比如llama就有7B 13B 70B三个版本
1B是10亿
7B就是有70亿个参数
其次要看模型参数的精度
通常有float32 float16 int8 int4这几种精度
学过计算机的都知道
一个float32占用4个字节32比特
一个float16减少一半
以此类推 int8 int4占用空间依次减半
有了这些基础
根据拿到的模型版本和参数精度
我们就可以计算出
要部署这个模型需要的显存数量
我们来计算下
llama-7B模型在不同精度下的显存占用
70亿个参数
精度为float32每个参数占用4个字节
我们可以计算出来大约需要26G显存
根据这个结果
那么半精度 int8 int4依次除以2
就能计算出来
精度越低模型准确度损失越大
这个需要根据实际情况
去选择合适的精度
模型在推理过程中
还会产生一些中间结果，会消耗显存，所以还要留有余量
以上计算仅适用于模型推理
如果对模型进行全量参数训练
那需要的显存会大得多，这就诞生了如lora之类的方法