分类: 教程

  • DeepSeek-V3 开源大模型本地部署教程:671B参数仅需37B激活

    DeepSeek-V3 开源大模型本地部署教程:671B参数仅需37B激活

    DeepSeek-V3 是深度求索(DeepSeek)团队推出的第三代开源大语言模型,采用混合专家(MoE)架构,总参数量达 6710亿,但每个token仅激活 370亿 参数。它在多项基准测试中媲美 GPT-4o 和 Claude 3.5 Sonnet,同时完全开源、可商用。

    💡 核心亮点:671B MoE / 37B激活 / 128K上下文 / MIT开源协议 / 中英文双语顶级表现

    📊 模型架构一览

    参数 数值
    总参数量671B
    激活参数量37B
    上下文长度128K tokens
    训练数据14.8T tokens
    开源协议MIT License

    🏆 Benchmark 表现

    测试项目 DeepSeek-V3 GPT-4o Claude 3.5
    MMLU88.587.288.3
    HumanEval82.680.579.3
    MATH-50090.274.678.3

    🚀 方法一:API 调用(最快上手)

    DeepSeek 提供了兼容 OpenAI 格式的 API,5分钟即可接入。

    # 安装 OpenAI 库
    pip install -U openai
    
    # 设置环境变量
    export OPENAI_BASE_URL="https://api.deepseek.com"
    export OPENAI_API_KEY="你的DeepSeek API Key"
    from openai import OpenAI
    
    client = OpenAI()
    
    response = client.chat.completions.create(
        model="deepseek-chat",
        messages=[
            {"role": "system", "content": "你是一个专业编程助手"},
            {"role": "user", "content": "用Python实现一个快速排序"}
        ],
        temperature=0.7,
    )
    
    print(response.choices[0].message.content)

    🛠️ 方法二:vLLM 本地部署

    ⚠️ 硬件要求:DeepSeek-V3 需要 8×A100 80GB 或 4×H100。可使用 FP8 量化降低显存需求。

    # 安装 vLLM
    pip install vllm
    
    # 启动服务(8 GPU)
    vllm serve deepseek-ai/DeepSeek-V3 \
      --tensor-parallel-size 8 \
      --max-model-len 32768 \
      --gpu-memory-utilization 0.9

    🔧 方法三:Ollama 本地运行

    # 拉取量化版本(推荐 Q4_K_M)
    ollama pull deepseek-v3
    
    # 运行对话
    ollama run deepseek-v3
    
    # 查看可用版本
    ollama list | grep deepseek

    📋 模型下载地址

    版本 链接
    原始权重HuggingFace
    GGUF 量化版bartowski GGUF

    🎯 总结

    DeepSeek-V3 是目前最强的开源大模型之一。671B MoE架构只激活37B参数,性价比极高。API价格仅为GPT-4o的1/10,本地部署则完全免费。

  • 每天免费2000次调用!ModelScope免费API接入Hermes Agent和OpenClaw完整教程

    API 费用太高,是很多人用 AI Agent 半途放弃的真正原因。好消息是,阿里旗下的 ModelScope 提供了每天 2000 次免费调用,够你把 Hermes Agent 和 OpenClaw 跑起来了。

    🎯 这篇文章能帮你解决什么

    不讲安装,只讲接入。你已经有跑得动的 Hermes Agent 或 OpenClaw,现在只需要一个便宜、简单、兼容 OpenAI 调用方式的 API。往下看就对了。

    先说结论:为什么是 ModelScope API Inference?

    ModelScope 是阿里旗下的 AI 模型社区,它的 API Inference 服务有几个关键优势:

    • 免费额度:注册用户每天 2000 次 免费调用
    • 兼容 OpenAI:接口地址换成 ModelScope 的就行,代码不用改
    • 接入简单:一个 Token + 一个 URL,两样东西搞定

    对于生活助理、工作助理、信息整理这些高频但轻量的场景,2000 次/天通常够用了。

    接入前你只需要准备两样东西

    api_key

    你的 ModelScope Token(下面会教你怎么拿)
    base_url

    https://api-inference.modelscope.cn/v1

    model 不算额外准备项,是在具体 Agent 配置流程里现场选的。

    第一步:获取 ModelScope Token

    ⚠️ 前置条件

    使用 API Inference 之前,需要先绑定阿里云账号并完成实名认证。这一步跳过了,后面全白搭。

    完成认证后,登录 ModelScope,左侧找到“访问控制”,你会看到默认令牌,也可以自己新建一个。

    📌 操作路径

    ModelScope 首页 → 左侧菜单「访问控制」→ 使用默认令牌 或 新建访问令牌 → 复制 Token

    第二步:在 Hermes Agent 里接入

    拿到 Token 之后,打开终端输入:




    Terminal
    $ hermes model

    进入配置界面后,按以下步骤操作:

    1

    选择 More providers…
    在 provider 列表中找到并选择
    2

    选择 Custom endpoint
    手动填写一个兼容 OpenAI 的接口地址
    3

    填写 base_url
    https://api-inference.modelscope.cn/v1
    4

    粘贴 api_key
    把刚才复制的 ModelScope Token 粘进去
    5

    选择模型
    验证通过后会自动拉取模型列表,输入编号选择即可
    6

    Context length 设为 512000+
    建议拉高一点,不然跑长任务会截断

    配置完,直接启动会话:




    Terminal
    $ hermes

    第三步:给 OpenClaw 也接上同一套 API

    先打开配置界面:




    Terminal
    $ openclaw config

    配置步骤:

    1

    Gateway → Local (this machine)
    2

    配置部分 → Model
    3

    Provider → Custom Provider
    4

    填写 base_url
    https://api-inference.modelscope.cn/v1
    5

    粘贴 api_key
    6

    Endpoint compatibility → Unknown (detect automatically)
    7

    去 ModelScope 模型库复制 Model ID
    找带”推理 API-Inference”标识的模型,格式如 Qwen/xxx、MiniMax/MiniMax-M2.7
    8

    粘贴 Model ID + 给模型起个别名
    比如 kimi、qwen、minimax,好记就行
    9

    Continue → 完成配置

    配置完之后重启 Gateway 并启动 TUI:




    Terminal
    $ openclaw gateway restart
    $ openclaw tui

    💡 上下文不够?

    如果发现模型上下文太短,编辑配置文件把 contextWindow 调到 512000




    ~/.openclaw/openclaw.json
    $ nano ~/.openclaw/openclaw.json

    怎么判断接通了没有?

    不用跑复杂任务,发三句简单的话试试就知道:




    测试消息
    > 介绍一下你自己
    > 帮我整理今天的待办
    > 总结这段文字的重点

    如果能正常返回结果,说明已经接通了。如果报错,优先排查这几项:

    🔍 常见问题排查

    • Token 填写错误或已失效
    • base_url 写成了别的地址
    • 选的模型当前不可用
    • OpenClaw 的 contextWindow 太小

    最后说一句实话

    这套服务适合这些场景:

    ✅ 适合 ❌ 不适合
    日常生活助理 高并发生产环境
    普通工作助理 强 SLA 业务
    轻量自动化流程 正式线上生产
    个人项目验证 需要稳定商业方案

    免费 API 会根据平台压力动态调整速率限制,这是正常现象。但如果你的目标只是先低成本跑起来,它已经非常够用了。

    📚 参考资料


    🦞 觉得有用?关注小龙虾宝贝,我会持续分享 AI 工具和编程技巧的最新动态 🦞