前言
AI 正在改变软件开发的方式。从简单的聊天机器人,到能自主完成复杂任务的智能体(Agent),再到能检索企业知识的 RAG 系统——AI 技术栈正在成为每个开发者的必修课。
本文用通俗易懂的语言,带你从零理解 AI 技术的核心概念,适合没有 AI 背景的开发者阅读。
一、AI 大模型:AI 的”大脑”
1.1 什么是大模型
大模型(LLM,Large Language Model)就是一个超级”文字接龙”程序。
你给它一句话的开头,它根据学到的规律,一个字一个字地往下接,直到生成完整的回答。
1 2
| 你问: "中国的首都是" 它接: "北" → "京" → "。"
|
听起来简单,但当模型有几千亿个参数、读过互联网上几乎所有的文字后,它就变得异常强大——能写代码、翻译、写文章、做数学题。
1.2 常见大模型
| 模型 |
公司 |
特点 |
适合场景 |
| GPT-4o |
OpenAI |
综合能力强 |
通用场景 |
| Claude |
Anthropic |
长文本、代码能力强 |
编程、文档分析 |
| Gemini |
Google |
多模态(文字+图片+视频) |
多媒体处理 |
| DeepSeek |
深度求索 |
开源、性价比高 |
国内项目 |
| Qwen(通义千问) |
阿里 |
中文能力强 |
中文场景 |
| Llama |
Meta |
开源、社区活跃 |
私有化部署 |
1.3 关键概念
Token(词元)
模型不直接处理文字,而是把文字拆成 Token。一个中文字约 1-2 个 token,一个英文单词约 1-2 个 token。
1 2
| "我爱编程" → ["我", "爱", "编程"] → 3 个 token "Hello World" → ["Hello", " World"] → 2 个 token
|
上下文窗口(Context Window)
模型一次能”看到”的文字总量。就像人的短期记忆,有容量限制。
1 2 3
| GPT-4o: 128K token ≈ 一本 300 页的书 Claude: 200K token ≈ 一本 500 页的书 Gemini: 1M token ≈ 一整套百科全书
|
Temperature(温度)
控制回答”随机性”的参数。
1 2 3
| Temperature = 0: 每次回答几乎一样(适合代码、数学) Temperature = 0.7: 适度变化(适合日常对话) Temperature = 1.5: 非常随机(适合创意写作)
|
1.4 大模型的局限
大模型不是万能的,它有明显的短板:
- 知识有截止日期:不知道今天发生了什么
- **会”一本正经地胡说八道”**:专业术语叫”幻觉”
- 无法访问外部系统:不能查数据库、不能调 API
- 推理能力有限:复杂逻辑推理容易出错
这就引出了下一个概念——Agent。
二、Agent:给 AI 装上”手和脚”
2.1 什么是 Agent
大模型只能”想”,不能”做”。Agent 就是让 AI 能自主行动的系统。
打个比方:
1 2
| 大模型 = 一个博学的大脑,只能坐在那里思考 Agent = 给大脑装上了手(工具)、脚(执行)、眼睛(感知)
|
一个完整的 Agent 循环:
1 2 3 4 5 6 7 8 9 10 11 12 13
| 用户需求 ↓ 感知 → "用户要我做什么?" ↓ 推理 → "我该怎么做?分几步?" ↓ 行动 → 调用工具执行操作 ↓ 观察 → "结果对不对?" ↓ 反思 → "需要调整吗?" ↓ 返回结果给用户
|
2.2 Agent 的核心能力
1. 工具调用(Tool Use)
Agent 能调用各种工具,就像人使用电脑一样:
1 2 3 4 5 6 7
| 工具列表: ├── 读写文件 → read_file() / write_file() ├── 执行命令 → run_command() ├── 搜索网页 → web_search() ├── 查询数据库 → query_database() ├── 调用 API → call_api() └── 发送消息 → send_message()
|
AI 根据任务自动决定用哪个工具:
1 2 3 4 5 6
| 用户:"帮我查一下数据库里有多少用户"
AI 思考:需要查询数据库 AI 行动:调用 query_database("SELECT COUNT(*) FROM users") AI 观察:返回结果 15234 AI 回答:"数据库中共有 15,234 个用户。"
|
2. 规划能力(Planning)
Agent 能把复杂任务拆成可执行的步骤:
1 2 3 4 5 6 7 8 9 10 11
| 用户:"帮我搭建一个博客网站"
Agent 规划: Step 1: 创建项目目录 Step 2: 初始化项目框架 Step 3: 编写首页代码 Step 4: 添加文章页面 Step 5: 配置样式 Step 6: 启动本地服务器验证
Agent 执行:逐步完成每个步骤...
|
3. 记忆系统(Memory)
1 2 3
| 短期记忆:当前对话的内容(对话结束就消失) 长期记忆:跨对话保存的知识(用户偏好、项目信息) 工作记忆:当前任务的中间状态(待办列表、执行计划)
|
2.3 Agent 的应用场景
| 场景 |
Agent 能做什么 |
| 代码开发 |
写代码、修 bug、做代码审查 |
| 数据分析 |
读数据、生成图表、写分析报告 |
| 运维监控 |
检查服务状态、自动修复故障 |
| 文档处理 |
读文档、提取信息、生成摘要 |
| 客户服务 |
回答问题、处理工单、转人工 |
三、Skill:Agent 的”技能包”
3.1 什么是 Skill
如果 Agent 是一个人,Skill 就是这个人掌握的具体技能。
1 2 3 4 5
| Agent(人) ├── Skill: 写代码 → 会用 IDE、知道编程规范 ├── Skill: 做代码审查 → 知道检查什么、怎么评价 ├── Skill: 部署应用 → 会用 Docker、了解 CI/CD └── Skill: 写文档 → 知道文档结构、写作技巧
|
1 2 3 4 5 6 7 8 9
| Tool(工具)= 锤子、螺丝刀、扳手(原子操作) Skill(技能)= 木工手艺、电路维修(组合多个工具的完整流程)
一个 Skill 内部可能用到多个 Tool: "代码审查" Skill ├── Tool: 读取文件 ├── Tool: 搜索代码 ├── Tool: 分析依赖 └── Tool: 生成报告
|
3.3 Skill 的结构
一个 Skill 通常包含:
1 2 3 4 5 6 7 8 9 10
| 名称: 代码审查 触发条件: 用户说"帮我看看代码" / "code review" 所需工具: [读取文件, 搜索代码, 运行测试] 执行步骤: 1. 读取代码变更(diff) 2. 检查逻辑错误 3. 检查安全漏洞 4. 检查代码风格 5. 生成审查报告 输出格式: 结构化的审查意见
|
3.4 Skill 的分类
1 2 3 4 5 6 7 8 9 10 11 12 13 14
| 通用 Skill:任何项目都能用 ├── 代码格式化 ├── 文件搜索 └── 终端操作
领域 Skill:特定技术栈 ├── React 组件开发 ├── SQL 查询优化 └── Docker 配置
项目 Skill:特定项目专用 ├── 部署到公司服务器 ├── 运行项目测试套件 └── 遵循团队编码规范
|
四、RAG:让 AI 学会”查资料”
4.1 为什么需要 RAG
大模型有两个致命问题:
- 知识有截止日期:不知道公司内部文档、不知道今天的新闻
- 会编造答案:遇到不知道的问题,可能一本正经地胡说
RAG(Retrieval Augmented Generation,检索增强生成)就是解决这两个问题的。
4.2 RAG 的原理
RAG 的核心思路:先查资料,再回答问题。
1 2 3 4 5
| 传统方式: 用户提问 → AI 直接回答(可能答错)
RAG 方式: 用户提问 → 先从知识库检索相关资料 → 把资料给 AI → AI 根据资料回答
|
具体流程:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
| Step 1: 建立知识库 ┌─────────────────────────┐ │ 公司文档 │ │ 产品手册 │ → 切分成小段 → 转成向量 → 存入向量数据库 │ 技术规范 │ │ 历史工单 │ └─────────────────────────┘
Step 2: 用户提问 "我们的退款政策是什么?"
Step 3: 检索相关文档 从向量数据库中找到最相关的 3-5 段文档
Step 4: AI 根据文档回答 输入:用户问题 + 检索到的文档 输出:"根据公司退款政策,购买后 7 天内可无理由退款..."
|
4.3 向量搜索:RAG 的核心技术
传统搜索是关键词匹配,向量搜索是语义匹配。
1 2 3 4 5 6 7 8 9 10
| 关键词搜索: 搜索:"退款" → 只能找到包含"退款"两个字的文档 遗漏:"退货返款"、"钱退回去了" → 找不到
向量搜索: 把文字转成一组数字(向量),比如: "退款" → [0.2, 0.8, 0.1, ...] "退货返款" → [0.21, 0.79, 0.12, ...] ← 向量很接近!
语义相近的文字,向量也相近 → 能找到语义相关的内容
|
4.4 RAG 实战架构
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
| ┌─────────────────────────────────────────┐ │ RAG 系统 │ ├─────────────────────────────────────────┤ │ │ │ ┌──────────┐ ┌──────────────────┐ │ │ │ 知识库 │ │ 向量数据库 │ │ │ │ 文档上传 │ → │ 文本切片 │ │ │ │ 文本切分 │ │ 向量化存储 │ │ │ │ 向量化 │ │ 相似度检索 │ │ │ └──────────┘ └────────┬─────────┘ │ │ │ │ │ ┌──────────┐ ┌────────▼─────────┐ │ │ │ 用户提问 │ → │ 检索 + 生成 │ │ │ └──────────┘ │ 相关文档 + 问题 │ │ │ │ → 大模型生成答案 │ │ │ └──────────────────┘ │ └─────────────────────────────────────────┘
|
4.5 RAG 适用场景
| 场景 |
说明 |
| 企业知识问答 |
基于内部文档回答员工问题 |
| 智能客服 |
基于产品文档回答客户问题 |
| 代码助手 |
基于项目代码回答开发问题 |
| 法律咨询 |
基于法规条文回答法律问题 |
| 医疗问答 |
基于医学文献回答健康问题 |
五、工作流编排:让多个 Agent 协作
5.1 为什么需要编排
单个 Agent 能力有限,复杂任务需要多个 Agent 分工协作。
1 2 3 4 5 6 7 8 9 10 11
| 场景:用户说"帮我做一个完整的代码审查"
单 Agent: 一个 Agent 既读代码、又分析、又写报告 → 效果一般
多 Agent 编排: Planner Agent → 制定审查计划 Reader Agent → 读取和分析代码 Security Agent → 专注安全检查 Report Agent → 汇总生成报告 → 各司其职,效果更好
|
5.2 常见编排模式
1. 顺序执行(Sequential)
1 2 3 4
| 任务 A → 任务 B → 任务 C → 最终结果
示例:数据处理流程 读取数据 → 清洗数据 → 分析数据 → 生成报告
|
2. 并行执行(Parallel)
1 2 3 4 5 6
| ┌→ 任务 A ─┐ 任务入口 →├→ 任务 B ─├→ 合并结果 └→ 任务 C ─┘
示例:代码审查 同时进行:安全检查 + 性能分析 + 风格检查 → 汇总报告
|
3. 条件分支(Conditional)
1 2 3 4 5 6 7 8 9 10
| 判断条件 ├→ 条件1 → 执行方案 A ├→ 条件2 → 执行方案 B └→ 条件3 → 执行方案 C
示例:客服分流 用户问题类型 ├→ 技术问题 → 技术支持 Agent ├→ 退款问题 → 退款处理 Agent └→ 其他 → 通用客服 Agent
|
4. 循环执行(Loop)
1 2 3 4 5 6 7
| 重复执行直到满足条件: 执行任务 → 检查结果 → 不满足 → 再次执行 → 满足 → 返回结果
示例:代码修复 写代码 → 运行测试 → 失败 → 分析错误 → 修改代码 → 再次运行 → 成功 → 完成
|
5.3 工作流编排工具
| 工具 |
特点 |
适合场景 |
| LangChain |
灵活、生态丰富 |
自定义复杂流程 |
| LangGraph |
图状工作流 |
多 Agent 协作 |
| Dify |
可视化、低代码 |
快速搭建 AI 应用 |
| Coze(扣子) |
字节出品、中文友好 |
国内 AI 应用 |
| CrewAI |
角色分工明确 |
多 Agent 场景 |
5.4 编排示例:智能客服系统
1 2 3 4 5 6 7 8 9 10
| 用户提问 ↓ Router Agent(路由) ├→ 技术问题 → 技术 Agent + RAG(技术文档) ├→ 退款问题 → 退款 Agent + RAG(退款政策) └→ 其他 → 通用 Agent ↓ Response Agent(优化回答) ↓ 返回给用户
|
六、其他重要概念
6.1 Prompt Engineering(提示词工程)
和 AI 沟通的”话术”,好的提示词能让 AI 输出质量大幅提升。
1 2 3 4 5 6 7 8 9 10
| 差的提示词: "帮我写个程序"
好的提示词: "请用 Python 写一个函数,功能是: 1. 接收一个列表作为参数 2. 去除列表中的重复元素 3. 按从小到大排序 4. 返回排序后的列表 请添加类型注解和 docstring。"
|
常用技巧:
1 2 3 4 5
| 1. 明确角色:你是一个资深 Java 开发工程师 2. 给出示例:参考这个格式... 3. 分步思考:请一步一步分析 4. 限制范围:只修改这个函数,不要改其他代码 5. 要求解释:请解释你的思路
|
6.2 Fine-tuning(微调)
用特定领域的数据”再训练”模型,让它更懂你的业务。
1 2 3
| 通用大模型:什么都知道一点,但不够专业 ↓ 微调(喂入医疗问答数据) 医疗大模型:对医疗问题回答更准确
|
| 方式 |
成本 |
效果 |
适用场景 |
| Prompt Engineering |
零成本 |
一般 |
快速验证 |
| RAG |
低 |
好 |
知识问答 |
| Fine-tuning |
高 |
很好 |
专业领域 |
6.3 MCP(Model Context Protocol)
Anthropic 提出的开放标准,让 AI 能标准化地连接外部工具和数据源。
1 2 3 4 5 6
| 传统方式:每个工具都要写专门的对接代码 MCP 方式:统一协议,即插即用
类比: USB 接口出现之前 → 每种设备一种接口 USB 接口出现之后 → 统一接口,插上就能用
|
6.4 Function Calling(函数调用)
让大模型能结构化地调用函数。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
| tools = [ { "name": "get_weather", "description": "查询天气", "parameters": { "city": {"type": "string", "description": "城市名"} } } ]
{ "function": "get_weather", "arguments": {"city": "北京"} }
|
七、学习路线建议
入门阶段(1-2 周)
1 2 3 4
| 1. 了解大模型基本概念(本文) 2. 动手使用 AI 产品(ChatGPT / Claude / 通义千问) 3. 学习 Prompt Engineering 基础 4. 用 AI 辅助写代码、写文档
|
进阶阶段(2-4 周)
1 2 3 4
| 1. 了解 API 调用方式(OpenAI API / Claude API) 2. 搭建一个简单的 RAG 应用 3. 了解 Agent 框架(LangChain / Dify) 4. 尝试搭建一个简单的 AI Agent
|
实战阶段(1-3 月)
1 2 3 4 5
| 1. 搭建企业级 RAG 系统 2. 开发多 Agent 协作应用 3. 学习工作流编排(LangGraph / Dify) 4. 了解 Fine-tuning 和模型部署 5. 将 AI 能力集成到现有项目中
|
推荐学习资源
1 2 3 4 5 6 7 8 9 10 11 12 13
| 官方文档: - OpenAI API 文档 - Anthropic Claude 文档 - LangChain 文档
实战平台: - Dify(可视化搭建 AI 应用) - Coze / 扣子(字节跳动 AI 平台) - Hugging Face(开源模型社区)
社区: - GitHub 上的 AI 开源项目 - 各大模型的开发者论坛
|
八、一张图总结
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
| ┌─────────────────────────────────────────────────┐ │ AI 技术全景图 │ ├─────────────────────────────────────────────────┤ │ │ │ ┌──────────────────────────────────────────┐ │ │ │ 应用层 │ │ │ │ 智能客服 │ 代码助手 │ 数据分析 │ 内容生成 │ │ │ └────────────────────┬─────────────────────┘ │ │ │ │ │ ┌────────────────────▼─────────────────────┐ │ │ │ 编排层 │ │ │ │ 工作流编排 │ 多 Agent 协作 │ 条件分支 │ │ │ └────────────────────┬─────────────────────┘ │ │ │ │ │ ┌────────────────────▼─────────────────────┐ │ │ │ 能力层 │ │ │ │ Agent │ Skill │ RAG │ Tool Use │ Memory │ │ │ └────────────────────┬─────────────────────┘ │ │ │ │ │ ┌────────────────────▼─────────────────────┐ │ │ │ 模型层 │ │ │ │ GPT │ Claude │ Gemini │ DeepSeek │ Qwen │ │ │ └──────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────┘
|
结语
AI 技术的学习不需要高深的数学基础。作为开发者,你只需要理解:
- 大模型是 AI 的大脑,负责”想”
- Agent让 AI 能”做”事情
- Skill是 Agent 的具体技能
- RAG让 AI 能”查资料”,减少胡说
- 工作流编排让多个 AI 协同工作
从今天开始,用 AI 辅助你的日常工作,边用边学,是最快的学习方式。