开源AI模型硬件需求排行榜:你的显卡能跑哪些模型?
- 大语言模型
- 4天前
- 10热度
- 0评论
按显存需求从低到高排列77款开源AI模型,帮你快速定位自己硬件的"天花板"。
排行榜说明
所有数据基于Q4_K_M量化(最流行的量化格式,质量保留约88%)。显存需求 = 模型文件大小 + 0.5GB运行时开销 + 10%安全余量。MoE模型按总参数计算显存(需加载所有专家)。
超轻量级(<2GB)—— 任何设备都能跑
| 排名 | 模型 | 参数 | 显存 | 上下文 | 许可证 | 任务 |
|---|---|---|---|---|---|---|
| 1 | Qwen3 0.6B | 0.6B | 0.8 GB | 32K | Apache 2.0 | chat, edge |
| 2 | Qwen3.5 0.8B | 0.8B | 0.9 GB | 32K | Apache 2.0 | chat, edge |
| 3 | Llama3.2 1B | 1B | 1.0 GB | 128K | Llama 3.2 | chat, edge |
| 4 | Gemma3 1B | 1B | 1.0 GB | 32K | Gemma | chat, edge |
| 5 | TinyLlama 1.1B | 1.1B | 1.1 GB | 2K | Apache 2.0 | chat, edge |
| 6 | Qwen2.5 Coder 1.5B | 1.5B | 1.3 GB | 32K | Apache 2.0 | code |
| 7 | Deepseek R1 1.5B | 1.5B | 1.3 GB | 64K | MIT | reasoning |
| 8 | Qwen3 1.7B | 1.7B | 1.4 GB | 32K | Apache 2.0 | chat, multilingual |
| 9 | Qwen3.5 2B | 2B | 1.5 GB | 32K | Apache 2.0 | chat, multilingual |
| 10 | Gemma2 2B | 2B | 1.5 GB | 8K | Gemma | chat, edge |
适合设备: 集成显卡、4GB显存笔记本、树莓派5
轻量级(2-5GB)—— 核显笔记本可跑
| 排名 | 模型 | 参数 | 显存 | 上下文 | 许可证 | 任务 |
|---|---|---|---|---|---|---|
| 11 | Llama3.2 3B | 3B | 2.0 GB | 128K | Llama 3.2 | chat, code |
| 12 | SmolLM3 3B | 3B | 2.0 GB | 128K | Apache 2.0 | chat, reasoning |
| 13 | Phi-3.5 Mini | 3.8B | 2.4 GB | 128K | MIT | reasoning, code, chat |
| 14 | Phi-4 Mini Reasoning | 3.8B | 2.4 GB | 16K | MIT | reasoning |
| 15 | Qwen3 4B | 4B | 2.5 GB | 32K | Apache 2.0 | chat, code |
| 16 | Gemma3 4B | 4B | 2.5 GB | 128K | Gemma | chat, vision |
| 17 | Qwen3.5 4B | 4B | 2.5 GB | 32K | Apache 2.0 | chat, multilingual |
| 18 | Gemma4 E2B IT | 5B | 3.1 GB | 256K | Gemma | chat, vision |
| 19 | Gemma4 E2B | 5B | 3.1 GB | 256K | Gemma | vision |
| 20 | Mistral 7B v0.3 | 7B | 4.1 GB | 32K | Apache 2.0 | chat, reasoning |
| 21 | Qwen2.5 7B | 7B | 4.1 GB | 128K | Apache 2.0 | chat, multilingual, code |
| 22 | Qwen2.5 Coder 7B | 7B | 4.1 GB | 128K | Apache 2.0 | code |
| 23 | Deepseek R1 Distill 7B | 7B | 4.1 GB | 64K | MIT | reasoning |
| 24 | Gemma4 E4B IT | 8B | 4.6 GB | 256K | Gemma | chat, vision |
| 25 | Gemma4 E4B | 8B | 4.6 GB | 256K | Gemma | vision |
适合设备: 8GB显存显卡(RTX 4060)、16GB Mac
主流级(5-8GB)—— 甜品参数区间
| 排名 | 模型 | 参数 | 显存 | 上下文 | 许可证 | 任务 |
|---|---|---|---|---|---|---|
| 26 | Llama3.1 8B | 8B | 4.6 GB | 128K | Llama 3.1 | chat, code, reasoning |
| 27 | Qwen3 8B | 8B | 4.6 GB | 128K | Apache 2.0 | chat, code, reasoning |
| 28 | Ministral 8B | 8B | 4.6 GB | 32K | MRL | chat |
| 29 | Gemma2 9B | 9B | 5.1 GB | 8K | Gemma | chat, reasoning |
| 30 | GLM-4 9B | 9B | 5.1 GB | 128K | GLM-4 | chat, multilingual, code |
| 31 | Nemotron Nano 9B v2 | 9B | 5.1 GB | 128K | NVIDIA Open | reasoning |
| 32 | Qwen3.5 9B | 9B | 5.1 GB | 32K | Apache 2.0 | chat, vision |
| 33 | Llama3.2 11B Vision | 11B | 6.1 GB | 128K | Llama 3.2 | chat, vision |
| 34 | Gemma3 12B | 12B | 6.6 GB | 128K | Gemma | chat, vision, reasoning |
| 35 | Mistral Nemo 12B | 12B | 6.6 GB | 128K | Apache 2.0 | chat, multilingual |
适合设备: 12GB显存显卡(RTX 4070)、24GB Mac
进阶级(8-18GB)—— 高质量体验区
| 排名 | 模型 | 参数 | 显存 | 上下文 | 许可证 | 任务 |
|---|---|---|---|---|---|---|
| 36 | Qwen2.5 14B | 14B | 7.7 GB | 128K | Apache 2.0 | chat, multilingual, reasoning |
| 37 | Phi-4 14B | 14B | 7.7 GB | 16K | MIT | reasoning, code |
| 38 | Qwen3 14B | 14B | 7.7 GB | 128K | Apache 2.0 | chat, code, reasoning |
| 39 | DeepSeek R1 Distill 14B | 14B | 7.7 GB | 64K | MIT | reasoning |
| 40 | GPT-OSS 20B | 21B MoE | 11.3 GB | 128K | Apache 2.0 | chat, reasoning, code |
| 41 | LFM2 24B | 24B MoE | 12.8 GB | 32K | Liquid AI | chat, edge, rag |
| 42 | Devstral Small 2 24B | 24B | 12.8 GB | 256K | Apache 2.0 | code |
| 43 | Mistral Small 3.1 24B | 24B | 12.8 GB | 128K | Apache 2.0 | chat, vision, code |
| 44 | Gemma2 27B | 27B | 14.3 GB | 8K | Gemma | chat, reasoning |
| 45 | Gemma3 27B | 27B | 14.3 GB | 128K | Gemma | chat, vision, reasoning |
| 46 | Gemma4 26B-A4B IT | 27B MoE | 14.3 GB | 256K | Gemma | chat, vision, reasoning |
| 47 | Qwen3.5 27B | 27.8B | 14.7 GB | 256K | Apache 2.0 | chat, vision, reasoning |
| 48 | Qwen3 30B-A3B | 30B MoE | 15.9 GB | 128K | Apache 2.0 | chat, reasoning |
| 49 | Nemotron3 Nano 30B | 30B MoE | 15.9 GB | 1024K | NVIDIA Open | chat, reasoning |
| 50 | Qwen2.5 32B | 32B | 16.9 GB | 128K | Apache 2.0 | chat, multilingual, reasoning |
| 51 | Qwen2.5 Coder 32B | 32B | 16.9 GB | 128K | Apache 2.0 | code |
| 52 | Qwen3 32B | 32B | 16.9 GB | 128K | Apache 2.0 | chat, code, reasoning |
| 53 | DeepSeek R1 Distill 32B | 32B | 16.9 GB | 64K | MIT | reasoning |
| 54 | EXAONE 4.0 32B | 32B | 16.9 GB | 128K | EXAONE AI | chat, reasoning |
| 55 | OLMo 2 32B | 32B | 16.9 GB | 4K | Apache 2.0 | chat, reasoning |
| 56 | Gemma4 31B IT | 33B | 17.4 GB | 256K | Gemma | chat, vision, reasoning |
| 57 | Gemma4 31B | 33B | 17.4 GB | 256K | Gemma | vision, reasoning |
| 58 | Command R 35B | 35B | 18.4 GB | 128K | CC BY-NC 4.0 | chat, rag |
| 59 | Qwen3.5 35B-A3B | 35B MoE | 18.4 GB | 256K | Apache 2.0 | chat, vision |
适合设备: 24GB显存显卡(RTX 4090/RTX 5090)、36GB+ Mac
旗舰级(>20GB)—— 需要高端硬件
| 排名 | 模型 | 参数 | 显存 | 上下文 | 许可证 | 任务 |
|---|---|---|---|---|---|---|
| 60 | Mixtral 8x7B | 47B MoE | 24.6 GB | 32K | Apache 2.0 | chat, code |
| 61 | Llama3.3 70B | 70B | 36.4 GB | 128K | Llama 3.3 | chat, reasoning, code |
| 62 | Qwen2.5 72B | 72B | 37.4 GB | 128K | Qwen | chat, multilingual, reasoning, code |
| 63 | Llama4 Scout 17B | 109B MoE | 56.3 GB | 128K | Llama 4 | chat, vision, reasoning |
| 64 | GPT-OSS 120B | 117B MoE | 60.4 GB | 128K | Apache 2.0 | chat, reasoning, code |
| 65 | Devstral 2 123B | 123B | 63.5 GB | 256K | MRL | code |
| 66 | Qwen3.5 122B-A10B | 122B MoE | 63.0 GB | 256K | Apache 2.0 | chat, vision, reasoning |
| 67 | Mixtral 8x22B | 141B MoE | 72.7 GB | 64K | Apache 2.0 | chat, code, reasoning |
| 序号 | 模型名称 | 参数量 | 模型大小 | 缓存大小 | 许可证 | 功能 |
|---|---|---|---|---|---|---|
| 68 | Qwen3 235B-A22B | 235B MoE | 120.9 GB | 128K | Apache 2.0 | chat, code, reasoning |
| 69 | Qwen3.5 397B-A17B | 397B MoE | 203.9 GB | 256K | Apache 2.0 | chat, vision, reasoning, code |
| 70 | Llama4 Maverick | 400B MoE | 205.4 GB | 1024K | Llama 4 | chat, vision, reasoning, code |
| 71 | Llama3.1 405B | 405B | 208.0 GB | 128K | Llama 3.1 | chat, reasoning, code |
| 72 | Qwen3 Coder 480B | 480B MoE | 246.4 GB | 256K | Apache 2.0 | code |
| 73 | DeepSeek R1 | 671B MoE | 344.2 GB | 64K | MIT | reasoning |
| 74 | DeepSeek V3.1 | 671B MoE | 344.2 GB | 128K | MIT | chat, code, reasoning |
| 75 | DeepSeek V3.2 | 685B MoE | 351.4 GB | 128K | MIT | chat, code, reasoning |
| 76 | Kimi K2 | 1T MoE | 512.7 GB | 128K | Kimi | chat, reasoning, code |
适合设备: 多卡方案、Mac Studio M4 Ultra 192GB、云端部署
按显卡型号快速匹配
RTX 4060 (8GB / 272 GB/s)
可跑前25名全部模型。最佳选择:Llama3.1 8B(~50 tok/s)、Qwen3.5 9B。
RTX 4070 (12GB / 504 GB/s)
可跑前35名。最佳选择:Gemma3 12B(~50 tok/s)、Mistral Nemo 12B。
RTX 4090 (24GB / 1008 GB/s)
可跑前61名。最佳选择:Qwen3 32B(~40 tok/s)、Mistral Small 3.1 24B。
Mac M4 Max (36GB / 546 GB/s)
可跑前62名(统一内存可用75%≈27GB)。最佳选择:Llama3.3 70B用Q2_K量化、Qwen3 32B Q4_K_M。
Mac M4 Ultra (192GB)
可跑几乎所有模型。Kimi K2和DeepSeek V3.2仍需更低量化。
数据来源:CanIRun.ai,基于Q4_K_M量化,统计截至2026年5月