Transformer三大架构对比

admin
人工智能
1小时前
4热度
0评论

架构	训练目标	视角	核心能力
Encoder-only	猜被遮住的词（填空）	双向	理解、分类、抽取
Decoder-only	猜下一个词（续写）	单向左→右	生成、对话、创作
Encoder-Decoder	输入→输出（翻译）	双向理解 + 单向生成	转换、摘要、翻译

1 Encoder-only（BERT 系）

训练任务：MLM（掩码语言模型）
做法：遮住一段文本里的一些 token，让模型还原被遮住的词
特点：
- 能双向看到上下文
- 天生擅长理解、分类、抽取、语义相似度

2 Decoder-only（GPT 系）

训练任务：CLM（因果语言模型）
做法：给定前面一串 token，只预测下一个
关键约束：
- 只能看左边，不能看右边（因果掩码）
- 天然适合生成、续写、对话、长文本

3 Encoder-Decoder（T5、BART 等）

结构：
- Encoder：理解输入（双向）
- Decoder：生成输出（自回归）
训练任务：seq2seq
擅长：翻译、摘要、改写、标题生成

曼波资源站（ManboHub）｜广告位招租
专注优质资源聚合与技术交流，提供各类免费PDF、软件、书籍资源，分享实用技术教程，让资源获取更便捷、技术提升更高效。