GPT-2并不只有一个固定的参数量,它实际上包含四个不同规模的模型版本,参数量从约1.2 亿到15亿不等。
通常大家提到的“GPT-2 有15 亿参数”,指的是其中最大的那个版本(GPT-2 XL)。

以下是 GPT-2 四个版本的具体参数规模对比:
表格
| 模型版本 | 参数量 | 网络层数 |
|---|---|---|
| GPT-2 Small | 1.17 亿 (117M) | 12 层 |
| GPT-2 Medium | 3.45 亿 (345M) | 24 层 |
| GPT-2 Large | 7.62 亿 (762M) | 36 层 |
| GPT-2 XL | 15 亿 (1.5B) | 48 层 |
补充背景:
相比于它的前代 GPT-1(约 1.17 亿参数),GPT-2 的最大版本在参数量上直接翻了 10 倍以上。正是这种“暴力”的规模扩展,加上使用了 40GB 的高质量网页文本(WebText)进行训练,让 GPT-2 首次展现出了惊人的“零样本学习”(Zero-shot)能力,也就是在不进行针对性微调的情况下,就能完成翻译、问答等任务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



