GPT2参数量汇总介绍

GPT-2并不只有一个固定的参数量,它实际上包含四个不同规模的模型版本,参数量从约1.2 亿到15亿不等。

通常大家提到的“GPT-2 有15 亿参数”,指的是其中最大的那个版本(GPT-2 XL)。

GPT2参数量汇总介绍

以下是 GPT-2 四个版本的具体参数规模对比:

表格

模型版本参数量网络层数
GPT-2 Small1.17 亿 (117M)12 层
GPT-2 Medium3.45 亿 (345M)24 层
GPT-2 Large7.62 亿 (762M)36 层
GPT-2 XL15 亿 (1.5B)48 层

补充背景:

相比于它的前代 GPT-1(约 1.17 亿参数),GPT-2 的最大版本在参数量上直接翻了 10 倍以上。正是这种“暴力”的规模扩展,加上使用了 40GB 的高质量网页文本(WebText)进行训练,让 GPT-2 首次展现出了惊人的“零样本学习”(Zero-shot)能力,也就是在不进行针对性微调的情况下,就能完成翻译、问答等任务。

© 版权声明

相关文章

暂无评论

none
暂无评论...