CanIRun.ai评分算法揭秘:你的电脑跑AI模型到底能得几分?
- 大语言模型
- 4天前
- 7热度
- 0评论
CanIRun.ai用一套0-100分的评分体系判断你的硬件能跑哪些AI模型。本文完整拆解其评分算法,帮你理解"能跑"背后的科学。
一、评分体系概览
CanIRun.ai的评分基于三个维度加权组合:
| 维度 | 权重 | 评估什么 |
|---|---|---|
| 速度得分 | 55% | 模型在你的硬件上跑多快 |
| 显存余量 | 35% | 模型占多少显存,还剩多少 |
| 质量加成 | ~10% | 大模型质量更好,给小分加成 |
最终分数 = 速度分×0.55 + 余量分×0.35 + 质量加分,再根据"紧绷"状态可能施加0.65倍惩罚。
二、速度得分(55%权重)
计算公式
tok/s = 显存带宽(GB/s) ÷ 模型VRAM(GB) × 效率系数- 离散GPU效率系数: 0.70
- Apple Silicon效率系数: 0.65(统一内存开销略高)
分数映射
| tok/s | 得分 | 评价 |
|---|---|---|
| 80+ | 100 | 瞬间响应,交互体验极佳 |
| 40+ | 85 | 快速舒适 |
| 20+ | 65 | 良好可用 |
| 10+ | 45 | 可用但有等待感 |
| 5+ | 25 | 缓慢,非交互场景可用 |
| <5 | 10 | 非常慢,交互体验差 |
实例计算
以RTX 4090(1008 GB/s)运行Qwen3 32B(16.9 GB VRAM)为例:
tok/s = 1008 ÷ 16.9 × 0.70 = 41.7 tok/s
→ 对应85分(Fast)同一模型在RTX 4060(272 GB/s)上:
tok/s = 272 ÷ 16.9 × 0.70 = 11.3 tok/s
→ 对应45分(Usable)核心洞察: 速度的瓶颈是显存带宽,而非算力。这就是为什么RTX 4090比RTX 4060快——不是因为"更强",而是因为"带宽更高"。
三、显存余量得分(35%权重)
衡量模型占用显存的比例:
| 显存占用率 | 得分 | 评价 |
|---|---|---|
| ≤30% | 100 | 空间充裕 |
| ≤50% | 80 | 舒适 |
| ≤70% | 55 | 适中 |
| ≤85% | 30 | 紧张 |
| >85% | 10 | 极度紧张 |
Apple Silicon的特殊处理
Mac使用统一内存,模型可用上限为总RAM的约75%:
可用显存 = 总RAM × 75% × 70% = 总RAM × 52.5%为什么是70%?因为macOS本身和其他应用也需要内存。
四、质量加成(~10%权重)
大模型质量更好,给予小幅加成(封顶15分):
质量加分 = min(15, log2(参数量B + 1) × 2.5)| 参数量 | 质量加分 |
|---|---|
| 1B | 2.5 |
| 7B | 7.5 |
| 32B | 12.5 |
| 70B+ | 15 (封顶) |
这个加成很小,不会主导评分,但确保了同速度下大模型排名略高。
五、"紧绷"惩罚
如果模型刚好能塞进显存(紧绷状态),总分乘以0.65:
紧绷判定标准
| 硬件类型 | 可运行 | 紧绷 | 不能运行 |
|---|---|---|---|
| Apple Silicon | ≤52.5% | 52.5%-75% | >75% |
| 离散GPU | ≤85% | 85%-110% | >110% |
为什么惩罚? 即使模型技术上能加载,紧绷状态下:
- KV缓存空间不足,长上下文受限
- 系统可能开始换页,速度骤降
- 多任务场景容易崩溃
六、评级系统
最终分数映射为六个等级:
| 等级 | 分数 | 含义 | 建议 |
|---|---|---|---|
| S | 85-100 | 流畅运行,空间充裕 | 日常使用无压力 |
| A | 70-84 | 速度良好,显存舒适 | 推荐使用 |
| B | 55-69 | 可用但不理想 | 可接受 |
| C | 40-54 | 紧绷运行,慢 | 降低量化或换小模型 |
| D | 20-39 | 极慢 | 不推荐日常使用 |
| F | 0-19 | 无法运行 | 需要更好的硬件 |
七、GPU数据库:带宽是关键
CanIRun.ai内置了约40款离散GPU和12款Apple Silicon芯片的数据库。核心参数就两个:VRAM容量和显存带宽。
热门GPU对比
| GPU | VRAM | 带宽(GB/s) | 可跑最大模型(Q4_K_M) |
|---|---|---|---|
| RTX 4060 | 8 GB | 272 | ~8B |
| RTX 4070 | 12 GB | 504 | ~12B |
| RTX 4090 | 24 GB | 1008 | ~32B |
| RTX 5090 | 32 GB | 1792 | ~48B |
| M4 Pro | 24 GB | 273 | ~32B |
| M4 Max | 36 GB | 546 | ~48B |
带宽的重要性: M4 Pro和RTX 4060带宽接近(273 vs 272 GB/s),但M4 Pro VRAM是3倍,所以同模型上M4 Pro速度相当,但能跑更大的模型。
八、实用计算器
你可以用以下公式快速估算自己的硬件能跑什么:
最大模型VRAM = 你的VRAM × 0.85 (离散GPU)
= 你的RAM × 0.525 (Apple Silicon)
推荐模型参数 = 最大模型VRAM ÷ 0.55 (Q4_K_M)例如RTX 4090 24GB:
- 最大VRAM ≈ 20.4 GB
- 推荐参数 ≈ 37B → 选Qwen3 32B最合适
九、评分的局限性
CanIRun.ai也坦诚承认了以下限制:
- 浏览器API有限: GPU名称可能模糊,RAM值是近似的
- 带宽来自规格表: 未考虑散热降频、后台进程
- ±20%误差: 实际速度可能上下浮动20%
- 不测量计算能力: 仅考虑带宽瓶颈,忽略了GPU算力
建议: 将评分作为参考,而非精确预言。实际体验还需亲自测试。
数据来源:CanIRun.ai Why页面,算法解析截至2026年5月