BERT到底是什么意思？

arafatenzo · Post by **arafatenzo** » Sun Dec 22, 2024 9:36 am

在调整语言模型时，很难定义预测目标。许多模型预测序列中的下一个单词（例如，“孩子从 ___ 回家”），这种定向方法本质上限制了上下文学习。为了克服这一挑战，BERT 使用两种训练策略：

蒙面传销 (MLM)
下一句话预测
蒙面 LM 是什么意思？
在将单词序列插入 BERT 之前，每个序列中 15% 的单土耳其电话格式词会被替换为 [MASK] 标记。然后，模型尝试根据序列中其他未屏蔽单词提供的上下文来预测屏蔽单词的原始值。用技术术语来说，输出词预测需要：

在编码器输出上方添加分类层。
通过将输出向量乘以嵌入矩阵，将它们转换为词汇量大小。

使用softmax计算词汇表中每个单词的概率。
BERT损失函数只考虑屏蔽值的预测，忽略未屏蔽词的预测。因此，该模型比定向模型收敛得更慢，这一特性可以通过其更强的上下文感知来补偿。

在实践中，BERT 的实现稍微复杂一些，并且不会替换所有 15% 的屏蔽词。

什么是下一句话预测？
在 BERT 对齐过程中，模型接收句子对作为输入，并学习预测该对中的第二个句子是否是原始文档中的下一个句子。在对齐过程中，50% 的输入是一对，其中第二个句子是原始文档中的下一个句子，而另外 50% 的输入是从语料库中随机选择一个句子作为第二个句子。假设随机句子将与第一个句子断开。