Transformer三大架构对比
- 人工智能
- 1小时前
- 4热度
- 0评论
| 架构 | 训练目标 | 视角 | 核心能力 |
|---|---|---|---|
| Encoder-only | 猜被遮住的词(填空) | 双向 | 理解、分类、抽取 |
| Decoder-only | 猜下一个词(续写) | 单向左→右 | 生成、对话、创作 |
| Encoder-Decoder | 输入→输出(翻译) | 双向理解 + 单向生成 | 转换、摘要、翻译 |
1 Encoder-only(BERT 系)
- 训练任务:MLM(掩码语言模型)
- 做法:遮住一段文本里的一些 token,让模型还原被遮住的词
- 特点:
- 能双向看到上下文
- 天生擅长理解、分类、抽取、语义相似度
2 Decoder-only(GPT 系)
- 训练任务:CLM(因果语言模型)
- 做法:给定前面一串 token,只预测下一个
- 关键约束:
- 只能看左边,不能看右边(因果掩码)
- 天然适合生成、续写、对话、长文本
3 Encoder-Decoder(T5、BART 等)
- 结构:
- Encoder:理解输入(双向)
- Decoder:生成输出(自回归)
- 训练任务:seq2seq
- 擅长:翻译、摘要、改写、标题生成
