Qwopus3.5 — 用 Reasoning SFT 释放 27B 模型的推理潜力

admin
深度学习
9小时前
3热度
0评论

这个模型是什么？

Qwopus3.5 是Jackrong (JIRONG发布的开源大语言模型系列。名称取自 Qw en + Opus — 基座是阿里的Qwen3.5-27B，训练目标是借鉴 Claude Opus 的推理风格来提升小模型的推理质量。

它不是简单的知识蒸馏，而是通过 Reasoning SFT （推理监督微调）让 27B 参数的模型学会了结构化推理。所有训练和测试均由作者自费在 Google Colab 上完成 — 这意味着你也可以复现整个流程。

当前最新版本为 v3.5 ，相比 v3 使用了约 2 倍的 SFT 训练数据，在泛化能力和 agentic 编程任务上进一步提升。

为什么值得关注？

在本地模型的世界里，27B 是一个关键的参数量级 — 大到足以产生高质量推理，小到能在消费级硬件上流畅运行。Qwopus 在这个量级上做到了三件事：

推理能力越级 ：通过 Reasoning SFT，27B 模型展现出超越同参数量级模型的多步推理能力
创意不打折 ：前端/UI 生成、游戏开发等创意任务上，社区实测表现亮眼
零门槛部署 ：GGUF、MLX 格式齐全，LM Studio 一键加载，无需折腾环境

模型版本一览

官方发布

模型	参数量	格式	说明
Qwopus3.5-27B-v3.5	27B	SafeTensors	最新版，2x SFT 数据，推荐
Qwopus3.5-27B-v3	27B	SafeTensors	稳定版
Qwopus3.5-27B-v3.5-GGUF	27B	GGUF	v3.5 量化版，适合本地部署
Qwopus3.5-27B-v3-GGUF	27B	GGUF	v3 量化版
Qwopus3.5-9B-v3-GGUF	9B	GGUF	轻量版，适合低显存设备
MLX-Qwopus3.5-9B-v3-6bit	9B	MLX	Apple Silicon 优化版

社区衍生

社区还提供了 GPTQ、AWQ、i1-GGUF、abliterated 等多种量化和变体版本，可在 Hugging Face 搜索 Qwopus 查看。

技术深度：Reasoning SFT 到底做了什么？

这是理解 Qwopus 的关键。如果你只记住一件事，记住这个：Reasoning SFT 不是让模型学新知识，而是教它如何使用已有的知识去推理。

基座与微调

基座模型 ：unsloth/Qwen3.5-27B（Qwen3.5 的 unsloth 优化版）
微调工具 ：Unsloth，支持在 Google Colab 上完成全流程训练
许可证 ：Apache-2.0

Reasoning SFT vs 知识蒸馏

很多人看到"Opus"就以为是从 Claude 蒸馏知识。实际上，Qwopus 的训练方法完全不同：

知识蒸馏	Reasoning SFT（Qwopus 的方法）
目标	让小模型模仿大模型的输出	让模型学会推理的过程和结构
数据	大模型的输入-输出对	高质量长 Chain-of-Thought 数据
效果	模仿格式，但推理深度有限	激活模型已有的潜在知识
泛化	局限于训练分布	可迁移到未见过的任务类型

相关论文 Rethinking Generalization in Reasoning SFT（arXiv:2604.06628）指出：

> 推理 SFT 的泛化能力是动态的、有条件的 — 取决于优化程度、数据质量和模型本身的能力。短期训练可能低估泛化效果，域外性能常呈现"先降后升"的恢复模式。

换句话说：训练初期模型可能在某些任务上变差，但随着训练深入，推理能力会"涌现"并迁移到新领域。

Act-then-refine — 先行动，再优化

Qwopus 的推理模式不是简单地"想完再说"，而是 Act-then-refine ：

模型先生成初步回答（Act）
通过 <think>...</think> 标签进行结构化思考（Refine）
输出经过验证和修正的最终结果

这种方式比简单的长 CoT 模仿更有效，尤其适合编程和多步骤任务。v3 版本放弃了 v2 的浅层 CoT，转向结构化可验证推理链 ，内部逻辑更严谨。

v3 → v3.5：不换架构，只加数据

v3.5 没有引入新架构、RL 阶段或模板重设计，纯粹通过扩大 SFT 数据量 （约 2 倍）来增强泛化能力。这本身就是一个有趣的实验结论 — 在 Reasoning SFT 框架下，数据量的扩展能直接转化为泛化能力的提升。

训练数据覆盖：数学、编程、谜题、多语言对话、指令遵循、多轮交互和 STEM 任务。

评测表现

v3 vs v3.5 对比

MMLU-Pro 子集（280 题）：

版本	正确	总数	准确率	变化
v3	250	280	89.29%	—
v3.5	253	280	90.36%	+1.07%

> 注：由于算力限制，v3.5 仅在 v3 使用的同一 280 题子集上评测（完整 MMLU-Pro 约 12000 题），结果仅供版本间纵向对比，不可与其他模型的完整评测直接比较。

作者自建 Agentic 编程测试（44 题）：

版本	通过	总数	通过率
v3	42	44	95.5%
v3.5	43	44	97.7%

> 注：这是作者自建的 44 题测试集，非标准 SWE-bench（500+ 题）。由于样本量小且非标准化，通过率不可与其他模型在 SWE-bench 上的成绩直接比较。

v3.5 的关键提升在于多步骤 agentic 编程 ：能通过工具调用读取源码、诊断 timezone 解析 bug 并提出修复方案，而 v3 未能定位根因。

官方指出推理 SFT 存在能力权衡 ：多步推理能力显著提升，但在部分对齐敏感的基准上可能出现轻微回退。

与基座模型的对比

Qwopus 目前缺乏在标准完整 benchmark 上的评测数据，因此无法与其他模型进行严格的横向对比。以下仅展示 Qwopus 相对于其基座模型 Qwen3.5-27B 的提升：

MMLU-Pro（280 题子集） ：从基座的表现提升至 ~90.4%，表明 Reasoning SFT 对推理类题目有正向效果
Agentic 编程（44 题自建集） ：v3.5 达到 97.7% 通过率，优于 v3 的 95.5%
MATH500、HumanEval、GSM8K ：官方仅给出定性描述"优秀"，未公布精确分数

待作者在完整标准 benchmark 上发布评测结果后，才能与 Gemma 4、Llama 4 Scout 等同级别模型进行公平比较。

已观察到的特点：

推理深度 ：Qwopus 通过 Reasoning SFT 在多步推理上有明显提升，在复杂编程任务上表现突出
创意与前端生成 ：社区实测显示 Qwopus 在 UI/前端代码生成中的创意多样性和完成度优于 Gemma 4
对齐权衡 ：推理 SFT 的代价是在部分对齐敏感基准上可能出现 1-2% 的轻微回退
部署门槛 ：Qwopus 27B Q4 量化仅需 ~16GB 显存，与 Gemma 4 27B 相当

实测一：前端创意生成 — Qwopus v3 vs Gemma 4

光看 benchmark 数字不够直观。以下是社区用户使用完全相同的提示词（生成一个关于 "Divine Scalar Field Hypothesis" 的学术预印本网站），在本地环境下的公平对比。

Qwopus v3 — 三次生成，三种截然不同的风格

测试	风格	亮点
#1	深空科幻	星空背景、彩虹渐变标题、粒子动画、指针悬停高亮
#2	学术极简	纯白背景、左侧导航栏、经典论文排版，仅加一行提示即切换风格
#3	暗黑现代	荧光渐变、3D 倾斜卡片、悬停发光、指针拖尾动画，视觉冲击力极强

三次生成，三种完全不同的设计语言。这说明模型在创意生成上有较强的多样性。

Gemma 4 — 同一提示词

布局基本正确，但创意平平，动画较少，更像"基础 Qwen 的升级版"
LaTeX 数学渲染出错（Qwopus 每次都完美）
无法通过工具调用直接写文件（需手动复制）

其他社区反馈

用 Pac-Man 游戏提示测试：Qwopus v3 一次生成完整可玩游戏，基础 Qwen 3.5 27B 只搭了框架且角色移动有问题
社区评价："The sauce is baked into the weights!"（精华已深度融入权重）

结论：在前端/UI 设计、创意生成、动画交互等需要审美 + 细节 + 多样性 的场景中，Qwopus v3 在社区实测中表现优于 Gemma 4。这不是全面 benchmark，但对本地前端开发、原型设计场景来说值得一试。

实测二：逻辑推理 — 一道"简单"的洗车题

> 测试环境：Qwopus3.5 v3.5 Q6_K 量化，Apple M3 Pro 36GB

以下测试展示了 Reasoning SFT 在日常逻辑推理中的实际效果。

测试题

> 我想洗车，我家距离洗车店只有 50 米，请问你推荐我走路还是开车去呢？

看似简单，实则包含一个隐含前提陷阱 — 大多数人（和模型）会被"50 米"的短距离误导，直觉回答"走路"。

Qwopus 的推理过程

模型展现了完整的多层推理：

识别核心矛盾 ：目标是"洗车"而非"去洗车店"，因此车必须物理到达洗车店
逐项排除 ：走路去 → 人到了但车没到 → 无法完成洗车目的
考虑边缘情况 ：上门服务、拖车服务等替代方案，并合理排除
识别幽默陷阱 ：意识到 50 米的距离让"开车"显得荒谬，但逻辑上是唯一正确选择
给出实用建议 ：开慢点避免沾灰、确认是否有上门服务等

最终结论正确：必须开车去 ，因为这是让车到达洗车店的唯一合理方式。

为什么这道题能说明问题？

这道题测试的不是知识量，而是推理质量：

抓住隐含前提 ：车需要到店，不是人需要到店
抵抗直觉偏差 ：距离短 ≠ 应该走路
多角度验证 ：不是给出第一反应，而是反复检验结论

这正是 Act-then-refine 推理模式的典型体现：先分析问题结构，再逐步验证，最终输出经过多轮检验的答案。不少同级别模型会直接回答"走路"，因为它们更倾向于模式匹配而非深入推理。

适用场景

场景	说明	Qwopus 的优势
编程辅助	代码阅读、bug 诊断、修复建议	多步骤 agentic 工作流，97.7% 通过率
前端/UI 生成	一次生成高质量页面	创意多样性突出，动画和交互细节丰富
逻辑推理	数学、竞赛题、日常逻辑	Reasoning SFT 带来的深度推理能力
工具调用	多步骤 agentic 任务	支持 `