GPT2

简单来说有如下几个更改
1.还是在gpt1的基础上,但是模型本身的结构参数有改动2.scaleup,数据加大,参数加大,达到了惊人的1.5b。
3.此次实验完全没有微调,预训练结束就拿去跑任务,任务效果不错,而且隐约展现了模型增大,数据增多就能突破天际的特点。