Transformer三大架构对比

架构训练目标视角核心能力
Encoder-only猜被遮住的词(填空)双向理解、分类、抽取
Decoder-only猜下一个词(续写)单向左→右生成、对话、创作
Encoder-Decoder输入→输出(翻译)双向理解 + 单向生成转换、摘要、翻译

1 Encoder-only(BERT 系)

  • 训练任务:MLM(掩码语言模型)
  • 做法:遮住一段文本里的一些 token,让模型还原被遮住的词
  • 特点:
    • 能双向看到上下文
    • 天生擅长理解、分类、抽取、语义相似度

2 Decoder-only(GPT 系)

  • 训练任务:CLM(因果语言模型)
  • 做法:给定前面一串 token,只预测下一个
  • 关键约束:
    • 只能​看左边,不能看右边​(因果掩码)
    • 天然适合生成、续写、对话、长文本

3 Encoder-Decoder(T5、BART 等)

  • 结构:
    • Encoder:​理解输入​(双向)
    • Decoder:​生成输出​(自回归)
  • 训练任务:seq2seq
  • 擅长:翻译、摘要、改写、标题生成