分类：教程

DeepSeek-V3 开源大模型本地部署教程：671B参数仅需37B激活
DeepSeek-V3 开源大模型本地部署教程：671B参数仅需37B激活

DeepSeek-V3 是深度求索（DeepSeek）团队推出的第三代开源大语言模型，采用混合专家（MoE）架构，总参数量达 6710亿，但每个token仅激活 370亿 参数。它在多项基准测试中媲美 GPT-4o 和 Claude 3.5 Sonnet，同时完全开源、可商用。

💡 核心亮点：671B MoE / 37B激活 / 128K上下文 / MIT开源协议 / 中英文双语顶级表现

📊 模型架构一览

参数数值

总参数量 671B

激活参数量 37B

上下文长度 128K tokens

训练数据 14.8T tokens

开源协议 MIT License

🏆 Benchmark 表现

测试项目 DeepSeek-V3 GPT-4o Claude 3.5

MMLU 88.5 87.2 88.3

HumanEval 82.6 80.5 79.3

MATH-500 90.2 74.6 78.3

🚀 方法一：API 调用（最快上手）

DeepSeek 提供了兼容 OpenAI 格式的 API，5分钟即可接入。
```
# 安装 OpenAI 库
pip install -U openai

# 设置环境变量
export OPENAI_BASE_URL="https://api.deepseek.com"
export OPENAI_API_KEY="你的DeepSeek API Key"
```
```
from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "你是一个专业编程助手"},
        {"role": "user", "content": "用Python实现一个快速排序"}
    ],
    temperature=0.7,
)

print(response.choices[0].message.content)
```
🛠️ 方法二：vLLM 本地部署

⚠️ 硬件要求：DeepSeek-V3 需要 8×A100 80GB 或 4×H100。可使用 FP8 量化降低显存需求。
```
# 安装 vLLM
pip install vllm

# 启动服务（8 GPU）
vllm serve deepseek-ai/DeepSeek-V3 \
  --tensor-parallel-size 8 \
  --max-model-len 32768 \
  --gpu-memory-utilization 0.9
```
🔧 方法三：Ollama 本地运行
```
# 拉取量化版本（推荐 Q4_K_M）
ollama pull deepseek-v3

# 运行对话
ollama run deepseek-v3

# 查看可用版本
ollama list | grep deepseek
```
📋 模型下载地址

版本链接

原始权重 HuggingFace

GGUF 量化版 bartowski GGUF

🎯 总结

DeepSeek-V3 是目前最强的开源大模型之一。671B MoE架构只激活37B参数，性价比极高。API价格仅为GPT-4o的1/10，本地部署则完全免费。
2026年4月19日
每天免费2000次调用！ModelScope免费API接入Hermes Agent和OpenClaw完整教程
API 费用太高，是很多人用 AI Agent 半途放弃的真正原因。好消息是，阿里旗下的 ModelScope 提供了每天 2000 次免费调用，够你把 Hermes Agent 和 OpenClaw 跑起来了。

🎯 这篇文章能帮你解决什么

不讲安装，只讲接入。你已经有跑得动的 Hermes Agent 或 OpenClaw，现在只需要一个便宜、简单、兼容 OpenAI 调用方式的 API。往下看就对了。

先说结论：为什么是 ModelScope API Inference？

ModelScope 是阿里旗下的 AI 模型社区，它的 API Inference 服务有几个关键优势：
- 免费额度：注册用户每天 2000 次免费调用
- 兼容 OpenAI：接口地址换成 ModelScope 的就行，代码不用改
- 接入简单：一个 Token + 一个 URL，两样东西搞定
对于生活助理、工作助理、信息整理这些高频但轻量的场景，2000 次/天通常够用了。

接入前你只需要准备两样东西

api_key

你的 ModelScope Token（下面会教你怎么拿）

base_url

https://api-inference.modelscope.cn/v1

model 不算额外准备项，是在具体 Agent 配置流程里现场选的。

第一步：获取 ModelScope Token

⚠️ 前置条件

使用 API Inference 之前，需要先绑定阿里云账号并完成实名认证。这一步跳过了，后面全白搭。

完成认证后，登录 ModelScope，左侧找到“访问控制”，你会看到默认令牌，也可以自己新建一个。

📌 操作路径

ModelScope 首页 → 左侧菜单「访问控制」→ 使用默认令牌或新建访问令牌 → 复制 Token

第二步：在 Hermes Agent 里接入

拿到 Token 之后，打开终端输入：

Terminal

$ hermes model

进入配置界面后，按以下步骤操作：

1

选择 More providers…
在 provider 列表中找到并选择

2

选择 Custom endpoint
手动填写一个兼容 OpenAI 的接口地址

3

填写 base_url
https://api-inference.modelscope.cn/v1

4

粘贴 api_key
把刚才复制的 ModelScope Token 粘进去

5

选择模型
验证通过后会自动拉取模型列表，输入编号选择即可

6

Context length 设为 512000+
建议拉高一点，不然跑长任务会截断

配置完，直接启动会话：

Terminal

$ hermes

第三步：给 OpenClaw 也接上同一套 API

先打开配置界面：

Terminal

$ openclaw config

配置步骤：

1

Gateway → Local (this machine)

2

配置部分 → Model

3

Provider → Custom Provider

4

填写 base_url
https://api-inference.modelscope.cn/v1

5

粘贴 api_key

6

Endpoint compatibility → Unknown (detect automatically)

7

去 ModelScope 模型库复制 Model ID
找带”推理 API-Inference”标识的模型，格式如 Qwen/xxx、MiniMax/MiniMax-M2.7

8

粘贴 Model ID + 给模型起个别名
比如 kimi、qwen、minimax，好记就行

9

Continue → 完成配置

配置完之后重启 Gateway 并启动 TUI：

Terminal

$ openclaw gateway restart
$ openclaw tui

💡 上下文不够？

如果发现模型上下文太短，编辑配置文件把 contextWindow 调到 512000：

~/.openclaw/openclaw.json

$ nano ~/.openclaw/openclaw.json

怎么判断接通了没有？

不用跑复杂任务，发三句简单的话试试就知道：

测试消息

> 介绍一下你自己
> 帮我整理今天的待办
> 总结这段文字的重点

如果能正常返回结果，说明已经接通了。如果报错，优先排查这几项：
🔍 常见问题排查
- Token 填写错误或已失效
- base_url 写成了别的地址
- 选的模型当前不可用
- OpenClaw 的 contextWindow 太小
最后说一句实话

这套服务适合这些场景：

✅ 适合 ❌ 不适合

日常生活助理高并发生产环境

普通工作助理强 SLA 业务

轻量自动化流程正式线上生产

个人项目验证需要稳定商业方案

免费 API 会根据平台压力动态调整速率限制，这是正常现象。但如果你的目标只是先低成本跑起来，它已经非常够用了。
📚 参考资料
- ModelScope API Inference 官方介绍
- B 站视频教程
🦞 觉得有用？关注小龙虾宝贝，我会持续分享 AI 工具和编程技巧的最新动态 🦞
2026年4月17日

参数	数值
总参数量	671B
激活参数量	37B
上下文长度	128K tokens
训练数据	14.8T tokens
开源协议	MIT License

✅ 适合	❌ 不适合
日常生活助理	高并发生产环境
普通工作助理	强 SLA 业务
轻量自动化流程	正式线上生产
个人项目验证	需要稳定商业方案

测试项目	DeepSeek-V3	GPT-4o	Claude 3.5
MMLU	88.5	87.2	88.3
HumanEval	82.6	80.5	79.3
MATH-500	90.2	74.6	78.3

版本	链接
原始权重	HuggingFace
GGUF 量化版	bartowski GGUF

分类： 教程

DeepSeek-V3 开源大模型本地部署教程：671B参数仅需37B激活

DeepSeek-V3 开源大模型本地部署教程：671B参数仅需37B激活

📊 模型架构一览

🏆 Benchmark 表现

🚀 方法一：API 调用（最快上手）

🛠️ 方法二：vLLM 本地部署

🔧 方法三：Ollama 本地运行

📋 模型下载地址

🎯 总结

每天免费2000次调用！ModelScope免费API接入Hermes Agent和OpenClaw完整教程

先说结论：为什么是 ModelScope API Inference？

接入前你只需要准备两样东西

第一步：获取 ModelScope Token

第二步：在 Hermes Agent 里接入

第三步：给 OpenClaw 也接上同一套 API

怎么判断接通了没有？

最后说一句实话

分类：教程