分类: 教程

  • MCP协议完全指南:连接AI与世界的万能接口

    如果你一直在关注AI领域的发展,一定听过”MCP”这个词频繁出现。MCP(Model Context Protocol,模型上下文协议)正在成为连接AI模型与外部世界的标准桥梁。本文将带你从零理解MCP,并手把手教你搭建自己的MCP服务。

    MCP是什么?为什么它很重要?

    简单来说,MCP是一个开放标准协议,由Anthropic在2024年底提出并开源。它定义了AI模型如何与外部工具、数据源和服务进行通信。你可以把它理解为”AI世界的USB接口”——有了统一标准,任何AI模型都能即插即用地使用各种工具。

    📊 MCP的影响力数据
    • 已有500+个MCP Server开源项目
    • Claude Desktop、Cursor、Windsurf等主流工具原生支持
    • 支持的工具类型:文件系统、数据库、API、浏览器、IDE等数十种

    在MCP出现之前,每个AI应用都需要单独开发工具连接器。ChatGPT有Plugins,Claude有工具调用,但彼此不兼容。MCP的出现让”一次开发,处处可用”成为可能。

    MCP的核心架构

    MCP采用经典的Client-Server架构,非常简洁:

    🏗️ 架构组成

    Host(宿主):AI应用本身,如Claude Desktop、Cursor
    MCP Client:运行在Host中,负责与Server通信
    MCP Server:提供具体工具能力的后端服务

    通信方式支持两种:
    stdio:本地进程间通信(最常用)
    SSE/HTTP:远程服务通信

    MCP Server可以暴露三种核心能力:

    1. Tools(工具):AI可以调用的函数,比如搜索文件、执行SQL查询、发送邮件等。

    2. Resources(资源):AI可以读取的数据,比如文件内容、数据库记录、API响应等。

    3. Prompts(提示模板):预定义的提示词模板,用于特定场景的标准化交互。

    实战:用Python搭建一个MCP Server

    理论说了这么多,不如直接上手。我们来创建一个简单的MCP Server,提供两个工具:获取当前时间和计算数学表达式。

    步骤1:安装依赖

    pip install mcp

    步骤2:编写Server代码

    # my_mcp_server.py
    from mcp.server import Server
    from mcp.types import Tool, TextContent
    import mcp.server.stdio
    from datetime import datetime
    
    server = Server("my-tools")
    
    @server.list_tools()
    async def list_tools():
        return [
            Tool(
                name="get_current_time",
                description="获取当前日期和时间",
                inputSchema={"type": "object", "properties": {}}
            ),
            Tool(
                name="calculate",
                description="计算数学表达式",
                inputSchema={
                    "type": "object",
                    "properties": {
                        "expression": {
                            "type": "string",
                            "description": "数学表达式,如 2+3*4"
                        }
                    },
                    "required": ["expression"]
                }
            )
        ]
    
    @server.call_tool()
    async def call_tool(name, arguments):
        if name == "get_current_time":
            now = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
            return [TextContent(type="text", text=f"当前时间:{now}")]
        elif name == "calculate":
            expr = arguments["expression"]
            try:
                result = eval(expr)  # 生产环境请用安全的计算库
                return [TextContent(type="text", text=f"{expr} = {result}")]
            except Exception as e:
                return [TextContent(type="text", text=f"计算错误:{e}")]
    
    async def main():
        async with mcp.server.stdio.stdio_server() as (read, write):
            await server.run(read, write)
    
    if __name__ == "__main__":
        import asyncio
        asyncio.run(main())

    步骤3:配置Claude Desktop

    在Claude Desktop的配置文件中添加你的MCP Server:

    {
      "mcpServers": {
        "my-tools": {
          "command": "python",
          "args": ["/path/to/my_mcp_server.py"]
        }
      }
    }

    保存配置,重启Claude Desktop,你就能在对话中使用这两个工具了!

    推荐:最实用的开源MCP Server

    不想自己造轮子?以下是社区中最受欢迎的MCP Server:

    MCP Server 功能 适用场景
    filesystem文件读写、搜索、管理代码项目管理
    sqliteSQLite数据库操作数据分析查询
    githubGitHub API集成代码仓库管理
    brave-search网页搜索实时信息获取
    puppeteer浏览器自动化网页抓取测试
    notionNotion API集成知识库管理

    MCP vs Function Calling:有什么区别?

    很多人会疑惑:大模型本身不是已经有Function Calling了吗?为什么还需要MCP?

    🔑 核心区别

    Function Calling:每个AI平台有自己的实现方式,OpenAI、Anthropic、Google的格式各不相同。开发者需要为每个平台单独适配。

    MCP:统一的开放标准。一次开发,所有支持MCP的AI平台都能使用。更重要的是,MCP支持动态工具发现——AI可以在运行时查询Server提供了哪些工具,而不是预先硬编码。

    可以说,Function Calling是”能力”,MCP是”标准”。MCP建立在Function Calling之上,解决了生态碎片化的问题。

    MCP的未来展望

    MCP正在快速发展,几个值得关注的趋势:

    1. 远程MCP Server:从本地stdio扩展到HTTP/SSE,让MCP Server可以作为云服务提供,实现”工具即服务”(Tool-as-a-Service)。

    2. 安全沙箱:社区正在推动MCP Server的安全标准,包括权限控制、审计日志等企业级特性。

    3. Agent协作:多Agent系统可以通过MCP相互通信,构建更复杂的AI工作流。

    MCP不仅仅是一个协议,它是AI工具生态走向成熟的标志。就像HTTP之于互联网,USB之于外设,MCP正在成为AI时代的基础设施级标准。
    📝 本文要点总结

    ✅ MCP是Anthropic提出的AI工具连接开放标准
    ✅ 采用Client-Server架构,支持stdio和HTTP两种通信方式
    ✅ Server可暴露Tools、Resources、Prompts三种能力
    ✅ 社区已有500+开源MCP Server可供使用
    ✅ 相比Function Calling,MCP解决了跨平台兼容性问题
    🔔 关注 xlx.baby

    获取更多AI开发教程和技术深度分析!
    我们将持续跟踪MCP生态的最新动态。
    收藏本站,一起探索AI的无限可能!
  • LLaVA 多模态大模型实战教程:让AI看懂图片

    LLaVA 多模态大模型实战教程:让AI看懂图片

    LLaVA(Large Language and Vision Assistant)是最知名的开源多模态模型,将视觉编码器与LLM结合,实现图片理解、OCR、图表分析等功能。本文教你部署和使用。

    🧠 架构原理

    组件说明
    视觉编码器CLIP ViT-L/14,提取图像特征
    投影层将视觉特征映射到文本空间
    LLMVicuna/LLaMA/Qwen 等

    🚀 用 Ollama 部署(最简单)

    # 拉取 LLaVA 模型
    ollama pull llava:13b
    
    # 交互式对话(输入图片路径)
    ollama run llava:13b
    >>> Describe this image: ./photo.jpg

    🐍 Python API 调用

    import base64, requests
    
    with open("image.jpg", "rb") as f:
        img_b64 = base64.b64encode(f.read()).decode()
    
    response = requests.post("http://localhost:11434/api/chat", json={
        "model": "llava:13b",
        "messages": [{
            "role": "user",
            "content": "描述这张图片",
            "images": [img_b64]
        }]
    })
    print(response.json()["message"]["content"])

    🎯 实战应用场景

    场景提示词示例
    图片描述“详细描述这张图片的内容”
    OCR 文字提取“提取图片中的所有文字”
    图表分析“分析这张图表的数据趋势”
    代码截图转代码“把截图中的代码转成文本”

    🎯 总结

    LLaVA 是最成熟的开源多模态方案之一。配合 Ollama 部署极其简单,13B版本就能实现不错的图片理解能力。完全免费替代 GPT-4V 的图片分析功能。

  • Dify 低代码AI应用开发平台教程:不写代码搭建AI应用

    Dify 低代码AI应用开发平台教程:不写代码搭建AI应用

    Dify 是开源的 LLMOps 平台,提供可视化的AI应用开发环境。无需写代码,就能搭建聊天机器人、RAG知识库问答、自动化工作流。支持接入 GPT-4、Claude、本地大模型等。

    📦 Docker 部署

    # 克隆仓库
    git clone https://github.com/langgenius/dify.git
    cd dify/docker
    
    # 复制环境配置
    cp .env.example .env
    
    # 启动所有服务
    docker compose up -d
    
    # 访问 http://localhost:3000

    🎯 四种应用类型

    类型说明典型场景
    聊天助手多轮对话机器人客服/闲聊
    文本生成单次文本生成写作/翻译/摘要
    AgentAI代理+工具调用数据分析/搜索
    工作流可视化流程编排复杂业务逻辑

    📚 搭建 RAG 知识库

    步骤

    1. 在 Dify 后台创建「知识库」
    2. 上传文档(PDF/Word/TXT/Markdown)
    3. 选择分段方式(自动/手动/按标题)
    4. 等待索引完成
    5. 在应用中引用知识库

    🔌 接入本地大模型

    # 在 Dify 设置 → 模型供应商 → Ollama
    # 填入:
    模型名称: qwen2.5:7b
    Base URL: http://host.docker.internal:11434
    # 即可使用本地 Ollama 模型

    🆚 Dify vs Coze vs FastGPT

    平台开源本地部署RAG插件
    Dify
    Coze
    FastGPT有限

    🎯 总结

    Dify 是最全面的开源AI应用开发平台。可视化工作流+RAG知识库+多模型支持,让非开发者也能搭建专业AI应用。Docker一键部署,接Ollama完全免费。

    📡 关注获取更多AI教程 | 数据来源:官方文档

  • Google Gemma 3 开源模型本地部署教程:1B到27B全覆盖

    Google Gemma 3 开源模型本地部署教程:1B到27B全覆盖

    Gemma 3 是 Google 推出的第三代开源大模型,提供 1B/4B/12B/27B 四个版本,支持 128K 上下文和多模态输入(4B+版本)。它是 Gemini 技术的开源版。

    📊 版本选择

    版本参数显存多模态适用场景
    1B10亿2GB手机/嵌入式
    4B40亿4GB轻量应用
    12B120亿10GB均衡之选
    27B270亿20GB高性能需求

    🚀 快速上手

    # 用 Ollama 运行
    ollama run gemma3:4b
    
    # 用 Transformers
    from transformers import AutoModelForCausalLM, AutoTokenizer
    
    model = AutoModelForCausalLM.from_pretrained("google/gemma-3-4b")
    tokenizer = AutoTokenizer.from_pretrained("google/gemma-3-4b")
    
    inputs = tokenizer("用Python写一个Hello World", return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=256)
    print(tokenizer.decode(outputs[0]))

    🖼️ 多模态图片理解(4B+)

    from transformers import Gemma3ForConditionalGeneration, AutoProcessor
    
    model = Gemma3ForConditionalGeneration.from_pretrained("google/gemma-3-4b-it")
    processor = AutoProcessor.from_pretrained("google/gemma-3-4b-it")
    
    messages = [{
        "role": "user",
        "content": [
            {"type": "image", "image": "photo.jpg"},
            {"type": "text", "text": "描述这张图片"}
        ]
    }]
    inputs = processor.apply_chat_template(messages, add_generation_prompt=True)

    🎯 总结

    Gemma 3 是 Google 对开源社区的重磅贡献。4B版本只需4GB显存就能跑多模态,27B版本在多项基准上超过同级竞品。配合 Ollama 使用极其方便。

  • ComfyUI AI绘画工作流搭建教程:节点式图像生成

    ComfyUI AI绘画工作流搭建教程:节点式图像生成

    ComfyUI 是基于节点的 Stable Diffusion 工作流工具,通过拖拽节点连接管线,实现高度灵活的图像生成。比 WebUI 更强大、更可控。

    📦 安装部署

    # 克隆仓库
    git clone https://github.com/comfyanonymous/ComfyUI.git
    cd ComfyUI
    
    # 安装依赖
    pip install -r requirements.txt
    
    # 启动(默认 8188 端口)
    python main.py --listen

    🔗 基础文生图工作流

    最基础的工作流由4个核心节点组成:

    节点功能
    Load Checkpoint加载 SD 模型
    CLIP Text Encode编码正/负提示词
    KSampler控制采样参数
    VAE Decode + Save解码并保存图片

    🎨 常用插件推荐

    插件功能
    ComfyUI-Manager插件管理器(必装)
    ComfyUI-ControlNet精确控制生成
    ComfyUI-Impact-Pack面部/细节修复
    ComfyUI-IPAdapter参考图风格迁移

    🎯 总结

    ComfyUI 的节点式界面虽然学习曲线陡峭,但一旦掌握,能实现 WebUI 做不到的复杂工作流。建议从基础文生图开始,逐步添加 ControlNet、LoRA 等节点。

  • Claude Code 全能编程助手使用指南:终端里的AI工程师

    Claude Code 全能编程助手使用指南:终端里的AI工程师

    Claude Code 是 Anthropic 推出的命令行AI编程工具,直接在终端中运行,可以读写文件、执行命令、创建提交。不同于IDE插件,它是一个完整的AI开发伙伴。

    📦 安装

    # 安装 Claude Code
    npm install -g @anthropic-ai/claude-code
    
    # 设置 API Key
    export ANTHROPIC_API_KEY="sk-ant-..."
    
    # 在项目目录启动
    cd your-project
    claude

    🎯 核心命令

    命令功能
    /init分析项目并生成 CLAUDE.md
    /review审查最近的代码改动
    /test自动运行并修复测试
    /fix修复 CI/构建错误
    /commit智能创建 git commit

    📝 CLAUDE.md 配置

    # CLAUDE.md
    
    ## 项目概述
    这是一个 Next.js 14 项目,使用 TypeScript + Prisma + PostgreSQL。
    
    ## 代码规范
    - 测试用 Jest,覆盖率要求 > 80%
    - 提交信息遵循 Conventional Commits
    - 禁止直接修改 migration 文件
    
    ## 常用命令
    - `npm run dev` - 启动开发服务器
    - `npm test` - 运行测试
    - `npm run build` - 构建生产版本

    🚀 实战:创建一个 REST API

    在终端输入 claude 后直接描述需求:

    "创建一个用户管理 REST API,支持 CRUD 操作,用 Express + TypeScript"

    Claude Code 会自动创建文件、写代码、安装依赖、运行测试。

    🎯 总结

    Claude Code 是目前最强的AI编程助手之一。它不只是补全代码,而是理解整个项目后帮你写代码、跑测试、修bug。搭配 CLAUDE.md 配置,效果拉满。

    📡 关注获取更多AI教程

  • Whisper 本地语音转文字完全指南:免费替代讯飞/腾讯

    Whisper 本地语音转文字完全指南:免费替代讯飞/腾讯

    OpenAI 的 Whisper 是目前最强的开源语音识别模型,支持 99 种语言,准确率媲美商业方案。完全本地运行,数据不出电脑,隐私无忧。

    📊 版本选择

    版本参数量显存需求速度准确率
    tiny39M1GB⚡⚡⚡一般
    base74M1GB⚡⚡还行
    small244M2GB良好
    medium769M5GB中等很好
    large-v31.55B10GB🥇 最佳

    🚀 方案一:Python 原生

    import whisper
    
    # 加载模型(首次会自动下载)
    model = whisper.load_model("large-v3")
    
    # 转录音频文件
    result = model.transcribe("audio.mp3", language="zh")
    print(result["text"])

    ⚡ 方案二:faster-whisper(推荐)

    基于 CTranslate2,速度提升 4倍,显存占用减半。

    from faster_whisper import WhisperModel
    
    model = WhisperModel("large-v3", device="cuda", compute_type="float16")
    
    segments, info = model.transcribe("audio.mp3", language="zh")
    for segment in segments:
        print(f"[{segment.start:.1f}s -> {segment.end:.1f}s] {segment.text}")

    📝 批量转写 + 字幕生成

    import glob, os
    from faster_whisper import WhisperModel
    
    model = WhisperModel("large-v3", device="cuda")
    
    for audio_file in glob.glob("*.mp3"):
        segments, _ = model.transcribe(audio_file, language="zh")
        
        # 生成 SRT 字幕
        srt_file = audio_file.rsplit(".", 1)[0] + ".srt"
        with open(srt_file, "w") as f:
            for i, seg in enumerate(segments, 1):
                start = f"{int(seg.start//3600):02d}:{int(seg.start%3600//60):02d}:{seg.start%60:06.3f}".replace(".", ",")
                end = f"{int(seg.end//3600):02d}:{int(seg.end%3600//60):02d}:{seg.end%60:06.3f}".replace(".", ",")
                f.write(f"{i}
    {start} --> {end}
    {seg.text}
    
    ")
        print(f"✅ {srt_file}")

    🎯 总结

    Whisper 是最可靠的本地语音识别方案。推荐用 faster-whisper + large-v3 组合,准确率高、速度快。完全免费,替代讯飞/腾讯付费API。

  • Stable Diffusion 3.5 本地AI绘画教程:从安装到出图全流程

    Stable Diffusion 3.5 本地AI绘画教程:从安装到出图全流程

    Stable Diffusion 3.5 是 Stability AI 推出的最新开源图像生成模型,包含 Medium(2.5B)、Large(8B)和 Turbo 三个版本。本文教你从零搭建本地AI绘画环境。

    📊 版本对比

    版本参数量显存需求生成速度
    Medium2.5B8GB+~10s
    Large8B24GB+~30s
    Turbo2.5B8GB+~2s

    🛠️ ComfyUI 部署

    # 克隆 ComfyUI
    git clone https://github.com/comfyanonymous/ComfyUI.git
    cd ComfyUI
    
    # 安装依赖
    pip install -r requirements.txt
    
    # 下载 SD3.5 模型放到 models/checkpoints/
    # 从 HuggingFace 下载 sd3.5_medium.safetensors
    
    # 启动
    python main.py --listen

    ✍️ 提示词技巧

    # 正向提示词模板
    prompt = """masterpiece, best quality, 1girl, 
    long black hair, wearing white dress, 
    standing in cherry blossom garden, 
    soft lighting, depth of field, 
    cinematic composition"""
    
    # 负向提示词
    negative = "worst quality, low quality, blurry, deformed, ugly"

    🎨 ControlNet 精确控制

    ControlNet 让你通过线稿、深度图、姿态骨骼等精确控制生成内容:

    控制类型用途
    Canny 边缘保留线稿结构
    Depth 深度保持空间关系
    OpenPose 姿态控制人物动作
    IP-Adapter参考图风格迁移

    🎯 总结

    SD3.5 开源免费,配合 ComfyUI 可以实现专业级的AI绘画工作流。Medium版本8GB显卡就能跑,Turbo版本2秒出图。掌握提示词+ControlNet,你就是AI画师。

  • Cursor AI 编程助手从入门到精通:10倍效率的秘密武器

    Cursor AI 编程助手从入门到精通:10倍效率的秘密武器

    Cursor 是2024-2025年最火的AI编程IDE,基于 VS Code 深度改造,集成了 GPT-4、Claude 等大模型。它不只是”带AI的编辑器”,而是重新定义了写代码的方式。估值已飙升至 500亿美元,成为AI编程赛道的领跑者。

    🎯 Cursor vs VS Code:有什么不同?

    功能 VS Code Cursor ⭐
    代码补全基础全文件AI预测
    AI对话插件原生集成
    多文件编辑Composer ✅
    代码理解手动AI上下文感知

    ⚡ 四大核心功能

    1. Tab 智能补全

    不只是补全当前行,而是预测你接下来要写的整段代码。基于你的项目上下文,越用越准。

    2. Cmd+K 行内编辑

    选中代码,按 Cmd+K,用自然语言描述你想怎么改。比手动重构快10倍。

    3. Chat 侧边栏

    按 Cmd+L 打开AI对话,支持 @引用文件、@引用文档。问代码问题、解释逻辑、生成代码。

    4. Composer 多文件编辑

    按 Cmd+I 打开Composer,一句话让AI跨多个文件创建/修改代码。适合搭建新功能。

    🛠️ .cursorrules 配置技巧

    在项目根目录创建 .cursorrules 文件,让AI更好地理解你的项目风格:

    # .cursorrules
    
    ## 项目信息
    这是一个 Next.js 14 + TypeScript + Tailwind CSS 项目。
    
    ## 代码规范
    - 使用函数式组件,不用 class 组件
    - 变量命名用 camelCase,组件用 PascalCase
    - 每个函数必须有 TypeScript 类型注释
    - API 调用统一用 fetch,不用 axios
    
    ## 响应要求
    - 代码注释用中文
    - 解释简洁,直接给代码

    💰 定价方案

    方案 价格 包含
    Hobby免费基础功能 + 有限额度
    Pro$20/月无限Tab + 500次高级请求
    Business$40/月团队管理 + 隐私模式

    🎯 总结

    Cursor 改变了”写代码”的定义——从逐字符输入变成描述意图。建议从 Pro 版开始体验,搭配 .cursorrules 配置,效率提升非常明显。

  • Ollama 本地大模型完全指南:一行命令运行GPT级AI

    Ollama 本地大模型完全指南:一行命令运行GPT级AI

    Ollama 是目前最流行的本地大模型运行工具,让你无需GPU集群,一行命令就能在自己电脑上运行 Llama 3、Mistral、Qwen 等开源大模型。本文是 Ollama 的完整使用指南。

    💡 一句话:Docker 级体验的 AI 模型管理器。安装→拉取→运行,三步搞定。

    📦 安装 Ollama

    Linux

    curl -fsSL https://ollama.com/install.sh | sh

    macOS / Windows

    直接从 ollama.com 下载安装包。

    🎯 推荐模型 TOP 10

    模型 大小 适用场景 拉取命令
    Llama 3.3 70B43GB通用对话/编程ollama run llama3.3
    Qwen2.5 72B44GB中文最强ollama run qwen2.5:72b
    DeepSeek-V3404GB顶级性能ollama run deepseek-v3
    Mistral Small14GB轻量高效ollama run mistral-small
    CodeLlama 34B19GB代码生成ollama run codellama:34b

    🔧 常用命令速查

    # 拉取模型
    ollama pull llama3.3
    
    # 运行对话
    ollama run qwen2.5:7b
    
    # 查看已安装模型
    ollama list
    
    # 删除模型
    ollama rm model_name
    
    # 查看模型信息
    ollama show llama3.3
    
    # 启动 API 服务
    ollama serve

    🔌 自定义 Modelfile

    # Modelfile
    FROM qwen2.5:7b
    
    # 设置系统提示词
    SYSTEM "你是一个专业的Python编程助手,回答简洁清晰。"
    
    # 设置参数
    PARAMETER temperature 0.7
    PARAMETER top_p 0.9
    PARAMETER num_ctx 8192
    
    # 创建自定义模型
    # ollama create my-assistant -f Modelfile

    🔗 接入第三方工具

    # Cursor 中使用 Ollama
    # Settings → Models → Add: http://localhost:11434/v1
    
    # Claude Code 中使用 Ollama
    export ANTHROPIC_BASE_URL=http://localhost:11434/v1
    export ANTHROPIC_API_KEY=ollama
    
    # LobeChat 中配置
    # 设置 → 语言模型 → Ollama → 填入 http://host.docker.internal:11434

    🎯 总结

    Ollama 让本地运行大模型变得像 Docker 一样简单。推荐入门用 Qwen2.5:7b(中文好),进阶用 Llama 3.3 70B(性能强)。配合第三方工具,可以打造完全私密的 AI 工作流。