一、模型家族

巨大的参数:

二、自监督学习

监督学习的做法:

我们是有标签的

而自监督学习:

在没有标签的情况下,自己做标注。

将原本数据分成两部分,一部分做输入,一部分作为标签。

三、BERT

BERT就是Transformer的Encoder。

输入一个Seq。

然后将输入随机掩盖。

指的是:1. MASK 2.随机

学会做填空题。

预测两个句子是否相接。

对BERT进行微调,满足下游任务:

下游任务:

半监督学习说的是,我们BERT的训练是(自监督学习)无监督的学习,而做下游任务的时候是监督学习。

情感分类

词性标注

前提、假设推断

问答

Seq2Seq

四、为什么BERT有用?

词嵌入。考虑上下文将token向量化。

计算一下余弦相似度:即学会饿了区分“果”的不同。

学会了文字的意思。

五、GPT

预测接下来的token。

BERT和GPT区别:

Encoder和Decoder