阿里开源 Qwen3.6-35B-A3B:30亿激活参数碾压270亿稠密模型,完整部署教程
阿里巴巴通义千问团队在2026年4月16日正式开源了 Qwen3.6-35B-A3B——一个基于稀疏混合专家(MoE)架构的多模态大模型。它拥有350亿总参数,但运行时仅激活30亿参数,却能在编程智能体、前端工作流等场景中超越270亿参数的稠密模型。
💡 一句话总结:35B总参数 / 3B激活参数 = 小成本运行大智能。Apache 2.0 开源协议,可商用。
📊 核心参数一览
| 参数 |
数值 |
说明 |
| 总参数量 | 35B | MoE架构总参数 |
| 激活参数量 | 3B | 实际推理时激活的参数 |
| 专家数量 | 256 | 8个路由专家 + 1个共享专家 |
| 层数 | 40层 | Gated DeltaNet + Gated Attention |
| 上下文长度 | 262K (原生) / 1M (扩展) | 超长上下文支持 |
| 模态 | 文本 + 图像 | 内置视觉编码器 |
| 开源协议 | Apache 2.0 | 可商用 |
🏆 Benchmark 成绩:3B激活参数的逆袭
Qwen3.6-35B-A3B 在多个关键基准测试中表现亮眼:
| 测试项目 |
Qwen3.5-27B (稠密) |
Gemma4-31B |
Qwen3.6-35B-A3B ⭐ |
| SWE-bench Verified | 75.0 | 52.0 | 73.4 |
| SWE-bench Multilingual | 69.3 | 51.7 | 67.2 |
| Terminal-Bench 2.0 | 41.6 | 42.9 | 51.5 🥇 |
| Claw-Eval Avg | 64.3 | 48.5 | 68.7 🥇 |
🎯 关键结论:Qwen3.6-35B-A3B 仅用 3B激活参数,就在 Terminal-Bench 2.0 上以 51.5分 碾压了 Gemma4-31B(42.9分)和 Qwen3.5-27B(41.6分),证明 MoE 架构的”小参数大智能”路线已成现实。
🚀 教程一:通过 API 快速体验(推荐新手)
最快上手方式是通过阿里云百炼平台的 API 服务,无需本地硬件。
📡 方法一:阿里云百炼 API
模型已在 Qwen Studio 上线,API 名称为 qwen3.6-flash。
# 1. 安装 openai 库
pip install -U openai
# 2. 设置环境变量
export OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"
export OPENAI_API_KEY="你的百炼API-Key"
from openai import OpenAI
client = OpenAI()
# 文本对话
response = client.chat.completions.create(
model="qwen3.6-flash",
messages=[
{"role": "user", "content": "用Python写一个贪吃蛇游戏"}
],
max_tokens=8192,
temperature=1.0,
top_p=0.95,
extra_body={"top_k": 20},
)
print(response.choices[0].message.content)
🖼️ 支持图片输入
Qwen3.6 是多模态模型,可以直接分析图片:
from openai import OpenAI
client = OpenAI()
messages = [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": "https://example.com/image.jpg"}
},
{
"type": "text",
"text": "描述这张图片中的内容"
}
]
}
]
response = client.chat.completions.create(
model="qwen3.6-flash",
messages=messages,
max_tokens=8192,
)
print(response.choices[0].message.content)
🛠️ 教程二:本地部署(SGLang / vLLM)
如果你有自己的 GPU 服务器,可以本地部署获得更高吞吐量和更低延迟。
⚠️ 硬件要求:完整部署需要 8×GPU(推荐 A100/H100),因为模型总参数35B。但得益于 MoE 架构,推理时只激活3B参数,显存占用远低于同等参数量的稠密模型。
步骤 1:安装 SGLang
# 创建虚拟环境
uv venv qwen36 --python 3.12
source qwen36/bin/activate
# 安装 SGLang(推荐 >= 0.5.10)
uv pip install sglang[all]
步骤 2:启动 API 服务
# 标准模式(8 GPU, 262K 上下文)
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3
# 启用 Tool Use 支持
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder
# 启用 Multi-Token Prediction (MTP) 加速
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
步骤 2b:用 vLLM 启动(备选方案)
# 安装 vLLM(推荐 >= 0.19.0)
uv pip install vllm --torch-backend=auto
# 标准模式
vllm serve Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3
# 纯文本模式(节省显存,跳过视觉编码器)
vllm serve Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--language-model-only
🔧 教程三:用 Ollama + GGUF 本地运行(消费级显卡)
没有8卡A100?没问题!社区已经提供了 GGUF 量化版本,可以在消费级显卡甚至纯 CPU 上运行。
步骤 1:安装 Ollama
# Linux 一键安装
curl -fsSL https://ollama.com/install.sh | sh
# 验证安装
ollama --version
步骤 2:拉取量化模型
# Q4 量化版(推荐,约20GB显存)
ollama pull hf.co/bartowski/Qwen_Qwen3.6-35B-A3B-GGUF:Q4_K_M
# 或者用 Unsloth 的 GGUF 版本
ollama pull hf.co/unsloth/Qwen3.6-35B-A3B-GGUF:Q4_K_M
步骤 3:运行对话
# 直接对话
ollama run hf.co/bartowski/Qwen_Qwen3.6-35B-A3B-GGUF:Q4_K_M
# 启动 OpenAI 兼容 API(可接入 Claude Code 等工具)
OLLAMA_HOST=0.0.0.0:11434 ollama serve
💡 采样参数推荐
Qwen3.6 默认开启 Thinking 模式(会先生成推理过程再回答),不同场景推荐不同参数:
| 场景 |
temperature |
top_p |
presence_penalty |
| 通用任务(Thinking) | 1.0 | 0.95 | 1.5 |
| 精确编程(WebDev) | 0.6 | 0.95 | 0.0 |
| 非思考模式(通用) | 0.7 | 0.8 | 1.5 |
| 非思考模式(推理) | 1.0 | 0.95 | 1.5 |
# 关闭 Thinking 模式(直接回答,不生成推理过程)
response = client.chat.completions.create(
model="qwen3.6-flash",
messages=[{"role": "user", "content": "1+1等于几?"}],
extra_body={
"chat_template_kwargs": {"enable_thinking": False}
}
)
🔗 接入 Claude Code / Cursor 等编程工具
Qwen3.6 已经适配了主流 AI 编程助手,可以直接替换后端模型:
# 在 Claude Code 中使用本地 Qwen3.6
export ANTHROPIC_BASE_URL=http://localhost:8000/v1
export ANTHROPIC_API_KEY=sk-local
claude "帮我重构这个函数"
📝 新功能:Thinking Preservation(思维链保留)
🧠 Qwen3.6 引入了 preserve_thinking 功能,可以在多轮对话中保留历史消息的推理上下文。这意味着在迭代开发时,模型不会重复推理,大幅减少 token 开销和响应延迟。
response = client.chat.completions.create(
model="qwen3.6-flash",
messages=messages,
extra_body={
"preserve_thinking": True # 保留历史思维链
}
)
📋 模型下载地址汇总
🎯 总结
Qwen3.6-35B-A3B 证明了一个趋势:MoE 架构正在让”小成本运行大模型”成为现实。35B总参数、3B激活参数,却能在编程智能体基准上与270亿稠密模型匹敌,同时支持多模态和超长上下文。
- 想快速体验?→ 用阿里云百炼 API
- 有高端GPU?→ 用 SGLang/vLLM 本地部署
- 只有消费级显卡?→ 用 Ollama + GGUF 量化版
📡 关注我获取更多 AI 实用教程 | 本文数据来源:HuggingFace 官方模型卡