GPT2参数量汇总介绍

GPT-2并不只有一个固定的参数量，它实际上包含四个不同规模的模型版本，参数量从约1.2 亿到15亿不等。

通常大家提到的“GPT-2 有15 亿参数”，指的是其中最大的那个版本(GPT-2 XL)。

以下是 GPT-2 四个版本的具体参数规模对比：

表格

模型版本	参数量	网络层数
GPT-2 Small	1.17 亿 (117M)	12 层
GPT-2 Medium	3.45 亿 (345M)	24 层
GPT-2 Large	7.62 亿 (762M)	36 层
GPT-2 XL	15 亿 (1.5B)	48 层

补充背景：

相比于它的前代 GPT-1(约 1.17 亿参数)，GPT-2 的最大版本在参数量上直接翻了 10 倍以上。正是这种“暴力”的规模扩展，加上使用了 40GB 的高质量网页文本(WebText)进行训练，让 GPT-2 首次展现出了惊人的“零样本学习”(Zero-shot)能力，也就是在不进行针对性微调的情况下，就能完成翻译、问答等任务。