阿里开源 Qwen3.6-35B-A3B：30亿激活参数碾压270亿稠密模型，完整部署教程

阿里巴巴通义千问团队在2026年4月16日正式开源了 Qwen3.6-35B-A3B——一个基于稀疏混合专家（MoE）架构的多模态大模型。它拥有350亿总参数，但运行时仅激活30亿参数，却能在编程智能体、前端工作流等场景中超越270亿参数的稠密模型。

💡 一句话总结：35B总参数 / 3B激活参数 = 小成本运行大智能。Apache 2.0 开源协议，可商用。

📊 核心参数一览

参数	数值	说明
总参数量	35B	MoE架构总参数
激活参数量	3B	实际推理时激活的参数
专家数量	256	8个路由专家 + 1个共享专家
层数	40层	Gated DeltaNet + Gated Attention
上下文长度	262K (原生) / 1M (扩展)	超长上下文支持
模态	文本 + 图像	内置视觉编码器
开源协议	Apache 2.0	可商用

🏆 Benchmark 成绩：3B激活参数的逆袭

Qwen3.6-35B-A3B 在多个关键基准测试中表现亮眼：

测试项目	Qwen3.5-27B (稠密)	Gemma4-31B	Qwen3.6-35B-A3B ⭐
SWE-bench Verified	75.0	52.0	73.4
SWE-bench Multilingual	69.3	51.7	67.2
Terminal-Bench 2.0	41.6	42.9	51.5 🥇
Claw-Eval Avg	64.3	48.5	68.7 🥇

🎯 关键结论：Qwen3.6-35B-A3B 仅用 3B激活参数，就在 Terminal-Bench 2.0 上以 51.5分 碾压了 Gemma4-31B（42.9分）和 Qwen3.5-27B（41.6分），证明 MoE 架构的”小参数大智能”路线已成现实。

🚀 教程一：通过 API 快速体验（推荐新手）

最快上手方式是通过阿里云百炼平台的 API 服务，无需本地硬件。

📡 方法一：阿里云百炼 API

模型已在 Qwen Studio 上线，API 名称为 qwen3.6-flash。

# 1. 安装 openai 库
pip install -U openai

# 2. 设置环境变量
export OPENAI_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1"
export OPENAI_API_KEY="你的百炼API-Key"

from openai import OpenAI

client = OpenAI()

# 文本对话
response = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[
        {"role": "user", "content": "用Python写一个贪吃蛇游戏"}
    ],
    max_tokens=8192,
    temperature=1.0,
    top_p=0.95,
    extra_body={"top_k": 20},
)

print(response.choices[0].message.content)

🖼️ 支持图片输入

Qwen3.6 是多模态模型，可以直接分析图片：

from openai import OpenAI
client = OpenAI()

messages = [
    {
        "role": "user",
        "content": [
            {
                "type": "image_url",
                "image_url": {"url": "https://example.com/image.jpg"}
            },
            {
                "type": "text",
                "text": "描述这张图片中的内容"
            }
        ]
    }
]

response = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=messages,
    max_tokens=8192,
)
print(response.choices[0].message.content)

🛠️ 教程二：本地部署（SGLang / vLLM）

如果你有自己的 GPU 服务器，可以本地部署获得更高吞吐量和更低延迟。

⚠️ 硬件要求：完整部署需要 8×GPU（推荐 A100/H100），因为模型总参数35B。但得益于 MoE 架构，推理时只激活3B参数，显存占用远低于同等参数量的稠密模型。

步骤 1：安装 SGLang

# 创建虚拟环境
uv venv qwen36 --python 3.12
source qwen36/bin/activate

# 安装 SGLang（推荐 >= 0.5.10）
uv pip install sglang[all]

步骤 2：启动 API 服务

# 标准模式（8 GPU, 262K 上下文）
python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3

# 启用 Tool Use 支持
python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen3_coder

# 启用 Multi-Token Prediction (MTP) 加速
python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

步骤 2b：用 vLLM 启动（备选方案）

# 安装 vLLM（推荐 >= 0.19.0）
uv pip install vllm --torch-backend=auto

# 标准模式
vllm serve Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3

# 纯文本模式（节省显存，跳过视觉编码器）
vllm serve Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --language-model-only

🔧 教程三：用 Ollama + GGUF 本地运行（消费级显卡）

没有8卡A100？没问题！社区已经提供了 GGUF 量化版本，可以在消费级显卡甚至纯 CPU 上运行。

步骤 1：安装 Ollama

# Linux 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

步骤 2：拉取量化模型

# Q4 量化版（推荐，约20GB显存）
ollama pull hf.co/bartowski/Qwen_Qwen3.6-35B-A3B-GGUF:Q4_K_M

# 或者用 Unsloth 的 GGUF 版本
ollama pull hf.co/unsloth/Qwen3.6-35B-A3B-GGUF:Q4_K_M

步骤 3：运行对话

# 直接对话
ollama run hf.co/bartowski/Qwen_Qwen3.6-35B-A3B-GGUF:Q4_K_M

# 启动 OpenAI 兼容 API（可接入 Claude Code 等工具）
OLLAMA_HOST=0.0.0.0:11434 ollama serve

💡 采样参数推荐

Qwen3.6 默认开启 Thinking 模式（会先生成推理过程再回答），不同场景推荐不同参数：

场景	temperature	top_p	presence_penalty
通用任务（Thinking）	`1.0`	`0.95`	`1.5`
精确编程（WebDev）	`0.6`	`0.95`	`0.0`
非思考模式（通用）	`0.7`	`0.8`	`1.5`
非思考模式（推理）	`1.0`	`0.95`	`1.5`

# 关闭 Thinking 模式（直接回答，不生成推理过程）
response = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=[{"role": "user", "content": "1+1等于几？"}],
    extra_body={
        "chat_template_kwargs": {"enable_thinking": False}
    }
)

🔗 接入 Claude Code / Cursor 等编程工具

Qwen3.6 已经适配了主流 AI 编程助手，可以直接替换后端模型：

# 在 Claude Code 中使用本地 Qwen3.6
export ANTHROPIC_BASE_URL=http://localhost:8000/v1
export ANTHROPIC_API_KEY=sk-local
claude "帮我重构这个函数"

📝 新功能：Thinking Preservation（思维链保留）

🧠 Qwen3.6 引入了 preserve_thinking 功能，可以在多轮对话中保留历史消息的推理上下文。这意味着在迭代开发时，模型不会重复推理，大幅减少 token 开销和响应延迟。

response = client.chat.completions.create(
    model="qwen3.6-flash",
    messages=messages,
    extra_body={
        "preserve_thinking": True  # 保留历史思维链
    }
)

📋 模型下载地址汇总

版本	链接	适用场景
原始权重 (BF16)	HuggingFace	8×GPU 完整部署
FP8 量化版	HuggingFace FP8	H100 优化推理
GGUF Q4 量化	bartowski GGUF	消费级显卡 / Ollama
Unsloth GGUF	Unsloth GGUF	多种量化精度可选
NVFP4 优化版	RedHat NVFP4	vLLM 高吞吐部署

🎯 总结

Qwen3.6-35B-A3B 证明了一个趋势：MoE 架构正在让”小成本运行大模型”成为现实。35B总参数、3B激活参数，却能在编程智能体基准上与270亿稠密模型匹敌，同时支持多模态和超长上下文。

想快速体验？→ 用阿里云百炼 API
有高端GPU？→ 用 SGLang/vLLM 本地部署
只有消费级显卡？→ 用 Ollama + GGUF 量化版

📡 关注我获取更多 AI 实用教程 | 本文数据来源：HuggingFace 官方模型卡

阿里开源 Qwen3.6-35B-A3B：30亿激活参数碾压270亿稠密模型，完整部署教程

阿里开源 Qwen3.6-35B-A3B：30亿激活参数碾压270亿稠密模型，完整部署教程

📊 核心参数一览

🏆 Benchmark 成绩：3B激活参数的逆袭

🚀 教程一：通过 API 快速体验（推荐新手）

📡 方法一：阿里云百炼 API

🖼️ 支持图片输入

🛠️ 教程二：本地部署（SGLang / vLLM）

步骤 1：安装 SGLang

步骤 2：启动 API 服务

步骤 2b：用 vLLM 启动（备选方案）

🔧 教程三：用 Ollama + GGUF 本地运行（消费级显卡）

步骤 1：安装 Ollama

步骤 2：拉取量化模型

步骤 3：运行对话

💡 采样参数推荐

🔗 接入 Claude Code / Cursor 等编程工具

📝 新功能：Thinking Preservation（思维链保留）

📋 模型下载地址汇总

🎯 总结

评论

发表回复取消回复

更多文章

马斯克xAI数据中心烧气争议：近50台燃气涡轮机在密西西比疯狂运转，环保红线还守得住吗？

地热革命席卷AI数据中心：Fervo Energy上市首日暴涨33%，科技巨头集体押注

国防AI新王诞生：Anduril融资50亿美元估值610亿，五角大楼为何重金押注？

国防AI新王诞生：Anduril融资50亿美元估值610亿，五角大楼为何重金押注？

阿里开源 Qwen3.6-35B-A3B：30亿激活参数碾压270亿稠密模型，完整部署教程

阿里开源 Qwen3.6-35B-A3B：30亿激活参数碾压270亿稠密模型，完整部署教程

📊 核心参数一览

🏆 Benchmark 成绩：3B激活参数的逆袭

🚀 教程一：通过 API 快速体验（推荐新手）

📡 方法一：阿里云百炼 API

🖼️ 支持图片输入

🛠️ 教程二：本地部署（SGLang / vLLM）

步骤 1：安装 SGLang

步骤 2：启动 API 服务

步骤 2b：用 vLLM 启动（备选方案）

🔧 教程三：用 Ollama + GGUF 本地运行（消费级显卡）

步骤 1：安装 Ollama

步骤 2：拉取量化模型

步骤 3：运行对话

💡 采样参数推荐

🔗 接入 Claude Code / Cursor 等编程工具

📝 新功能：Thinking Preservation（思维链保留）

📋 模型下载地址汇总

🎯 总结

评论

发表回复 取消回复

更多文章

马斯克xAI数据中心烧气争议：近50台燃气涡轮机在密西西比疯狂运转，环保红线还守得住吗？

地热革命席卷AI数据中心：Fervo Energy上市首日暴涨33%，科技巨头集体押注

国防AI新王诞生：Anduril融资50亿美元估值610亿，五角大楼为何重金押注？

国防AI新王诞生：Anduril融资50亿美元估值610亿，五角大楼为何重金押注？

发表回复取消回复