阿里开源 Qwen3.6-35B-A3B:30亿激活参数碾压270亿稠密模型,完整部署教程

阿里开源 Qwen3.6-35B-A3B:30亿激活参数碾压270亿稠密模型,完整部署教程

阿里巴巴通义千问团队在2026年4月16日正式开源了 Qwen3.6-35B-A3B——一个基于稀疏混合专家(MoE)架构的多模态大模型。它拥有350亿总参数,但运行时仅激活30亿参数,却能在编程智能体、前端工作流等场景中超越270亿参数的稠密模型。

💡 一句话总结:35B总参数 / 3B激活参数 = 小成本运行大智能。Apache 2.0 开源协议,可商用。

📊 核心参数一览

参数 数值 说明
总参数量35BMoE架构总参数
激活参数量3B实际推理时激活的参数
专家数量2568个路由专家 + 1个共享专家
层数40层Gated DeltaNet + Gated Attention
上下文长度262K (原生) / 1M (扩展)超长上下文支持
模态文本 + 图像内置视觉编码器
开源协议Apache 2.0可商用

🏆 Benchmark 成绩:3B激活参数的逆袭

Qwen3.6-35B-A3B 在多个关键基准测试中表现亮眼:

测试项目 Qwen3.5-27B (稠密) Gemma4-31B Qwen3.6-35B-A3B ⭐
SWE-bench Verified75.052.073.4
SWE-bench Multilingual69.351.767.2
Terminal-Bench 2.041.642.951.5 🥇
Claw-Eval Avg64.348.568.7 🥇

🎯 关键结论:Qwen3.6-35B-A3B 仅用 3B激活参数,就在 Terminal-Bench 2.0 上以 51.5分 碾压了 Gemma4-31B(42.9分)和 Qwen3.5-27B(41.6分),证明 MoE 架构的”小参数大智能”路线已成现实。

🚀 教程一:通过 API 快速体验(推荐新手)

最快上手方式是通过阿里云百炼平台的 API 服务,无需本地硬件。

📡 方法一:阿里云百炼 API

模型已在 Qwen Studio 上线,API 名称为 qwen3.6-flash

# 1. 安装 openai 库
pip install -U openai

# 2. 设置环境变量
export OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"
export OPENAI_API_KEY="你的百炼API-Key"
from openai import OpenAI

client = OpenAI()

# 文本对话
response = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[
        {"role": "user", "content": "用Python写一个贪吃蛇游戏"}
    ],
    max_tokens=8192,
    temperature=1.0,
    top_p=0.95,
    extra_body={"top_k": 20},
)

print(response.choices[0].message.content)

🖼️ 支持图片输入

Qwen3.6 是多模态模型,可以直接分析图片:

from openai import OpenAI
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {"url": "https://example.com/image.jpg"}
            },
            {
                "type": "text",
                "text": "描述这张图片中的内容"
            }
        ]
    }
]

response = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=messages,
    max_tokens=8192,
)
print(response.choices[0].message.content)

🛠️ 教程二:本地部署(SGLang / vLLM)

如果你有自己的 GPU 服务器,可以本地部署获得更高吞吐量和更低延迟。

⚠️ 硬件要求:完整部署需要 8×GPU(推荐 A100/H100),因为模型总参数35B。但得益于 MoE 架构,推理时只激活3B参数,显存占用远低于同等参数量的稠密模型。

步骤 1:安装 SGLang

# 创建虚拟环境
uv venv qwen36 --python 3.12
source qwen36/bin/activate

# 安装 SGLang(推荐 >= 0.5.10)
uv pip install sglang[all]

步骤 2:启动 API 服务

# 标准模式(8 GPU, 262K 上下文)
python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3
# 启用 Tool Use 支持
python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen3_coder
# 启用 Multi-Token Prediction (MTP) 加速
python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

步骤 2b:用 vLLM 启动(备选方案)

# 安装 vLLM(推荐 >= 0.19.0)
uv pip install vllm --torch-backend=auto

# 标准模式
vllm serve Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3

# 纯文本模式(节省显存,跳过视觉编码器)
vllm serve Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --language-model-only

🔧 教程三:用 Ollama + GGUF 本地运行(消费级显卡)

没有8卡A100?没问题!社区已经提供了 GGUF 量化版本,可以在消费级显卡甚至纯 CPU 上运行。

步骤 1:安装 Ollama

# Linux 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

步骤 2:拉取量化模型

# Q4 量化版(推荐,约20GB显存)
ollama pull hf.co/bartowski/Qwen_Qwen3.6-35B-A3B-GGUF:Q4_K_M

# 或者用 Unsloth 的 GGUF 版本
ollama pull hf.co/unsloth/Qwen3.6-35B-A3B-GGUF:Q4_K_M

步骤 3:运行对话

# 直接对话
ollama run hf.co/bartowski/Qwen_Qwen3.6-35B-A3B-GGUF:Q4_K_M

# 启动 OpenAI 兼容 API(可接入 Claude Code 等工具)
OLLAMA_HOST=0.0.0.0:11434 ollama serve

💡 采样参数推荐

Qwen3.6 默认开启 Thinking 模式(会先生成推理过程再回答),不同场景推荐不同参数:

场景 temperature top_p presence_penalty
通用任务(Thinking)1.00.951.5
精确编程(WebDev)0.60.950.0
非思考模式(通用)0.70.81.5
非思考模式(推理)1.00.951.5
# 关闭 Thinking 模式(直接回答,不生成推理过程)
response = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[{"role": "user", "content": "1+1等于几?"}],
    extra_body={
        "chat_template_kwargs": {"enable_thinking": False}
    }
)

🔗 接入 Claude Code / Cursor 等编程工具

Qwen3.6 已经适配了主流 AI 编程助手,可以直接替换后端模型:

# 在 Claude Code 中使用本地 Qwen3.6
export ANTHROPIC_BASE_URL=http://localhost:8000/v1
export ANTHROPIC_API_KEY=sk-local
claude "帮我重构这个函数"

📝 新功能:Thinking Preservation(思维链保留)

🧠 Qwen3.6 引入了 preserve_thinking 功能,可以在多轮对话中保留历史消息的推理上下文。这意味着在迭代开发时,模型不会重复推理,大幅减少 token 开销和响应延迟。

response = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=messages,
    extra_body={
        "preserve_thinking": True  # 保留历史思维链
    }
)

📋 模型下载地址汇总

版本 链接 适用场景
原始权重 (BF16)HuggingFace8×GPU 完整部署
FP8 量化版HuggingFace FP8H100 优化推理
GGUF Q4 量化bartowski GGUF消费级显卡 / Ollama
Unsloth GGUFUnsloth GGUF多种量化精度可选
NVFP4 优化版RedHat NVFP4vLLM 高吞吐部署

🎯 总结

Qwen3.6-35B-A3B 证明了一个趋势:MoE 架构正在让”小成本运行大模型”成为现实。35B总参数、3B激活参数,却能在编程智能体基准上与270亿稠密模型匹敌,同时支持多模态和超长上下文。

  • 想快速体验?→ 用阿里云百炼 API
  • 有高端GPU?→ 用 SGLang/vLLM 本地部署
  • 只有消费级显卡?→ 用 Ollama + GGUF 量化版

📡 关注我获取更多 AI 实用教程 | 本文数据来源:HuggingFace 官方模型卡

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注