AI 学习路线图：从大模型到 Agent 的完整入门指南

五月 28, 2026 9644

前言

AI 正在改变软件开发的方式。从简单的聊天机器人，到能自主完成复杂任务的智能体（Agent），再到能检索企业知识的 RAG 系统——AI 技术栈正在成为每个开发者的必修课。

本文用通俗易懂的语言，带你从零理解 AI 技术的核心概念，适合没有 AI 背景的开发者阅读。

一、AI 大模型：AI 的”大脑”

1.1 什么是大模型

大模型（LLM，Large Language Model）就是一个超级”文字接龙”程序。

你给它一句话的开头，它根据学到的规律，一个字一个字地往下接，直到生成完整的回答。

1 2	你问： "中国的首都是" 它接： "北" → "京" → "。"

听起来简单，但当模型有几千亿个参数、读过互联网上几乎所有的文字后，它就变得异常强大——能写代码、翻译、写文章、做数学题。

1.2 常见大模型

模型	公司	特点	适合场景
GPT-4o	OpenAI	综合能力强	通用场景
Claude	Anthropic	长文本、代码能力强	编程、文档分析
Gemini	Google	多模态（文字+图片+视频）	多媒体处理
DeepSeek	深度求索	开源、性价比高	国内项目
Qwen（通义千问）	阿里	中文能力强	中文场景
Llama	Meta	开源、社区活跃	私有化部署

1.3 关键概念

Token（词元）

模型不直接处理文字，而是把文字拆成 Token。一个中文字约 1-2 个 token，一个英文单词约 1-2 个 token。

1 2	"我爱编程" → ["我", "爱", "编程"] → 3 个 token "Hello World" → ["Hello", " World"] → 2 个 token

上下文窗口（Context Window）

模型一次能”看到”的文字总量。就像人的短期记忆，有容量限制。

1
2
3

GPT-4o：     128K token ≈ 一本 300 页的书
Claude：     200K token ≈ 一本 500 页的书
Gemini：     1M token  ≈ 一整套百科全书

Temperature（温度）

控制回答”随机性”的参数。

1
2
3

Temperature = 0：    每次回答几乎一样（适合代码、数学）
Temperature = 0.7：  适度变化（适合日常对话）
Temperature = 1.5：  非常随机（适合创意写作）

1.4 大模型的局限

大模型不是万能的，它有明显的短板：

知识有截止日期：不知道今天发生了什么
**会”一本正经地胡说八道”**：专业术语叫”幻觉”
无法访问外部系统：不能查数据库、不能调 API
推理能力有限：复杂逻辑推理容易出错

这就引出了下一个概念——Agent。

二、Agent：给 AI 装上”手和脚”

2.1 什么是 Agent

大模型只能”想”，不能”做”。Agent 就是让 AI 能自主行动的系统。

打个比方：

1 2	大模型 = 一个博学的大脑，只能坐在那里思考 Agent = 给大脑装上了手（工具）、脚（执行）、眼睛（感知）

一个完整的 Agent 循环：

用户需求
  ↓
感知 → "用户要我做什么？"
  ↓
推理 → "我该怎么做？分几步？"
  ↓
行动 → 调用工具执行操作
  ↓
观察 → "结果对不对？"
  ↓
反思 → "需要调整吗？"
  ↓
返回结果给用户

2.2 Agent 的核心能力

1. 工具调用（Tool Use）

Agent 能调用各种工具，就像人使用电脑一样：

工具列表：
├── 读写文件      → read_file() / write_file()
├── 执行命令      → run_command()
├── 搜索网页      → web_search()
├── 查询数据库    → query_database()
├── 调用 API      → call_api()
└── 发送消息      → send_message()

AI 根据任务自动决定用哪个工具：

用户："帮我查一下数据库里有多少用户"

AI 思考：需要查询数据库
AI 行动：调用 query_database("SELECT COUNT(*) FROM users")
AI 观察：返回结果 15234
AI 回答："数据库中共有 15,234 个用户。"

2. 规划能力（Planning）

Agent 能把复杂任务拆成可执行的步骤：

用户："帮我搭建一个博客网站"

Agent 规划：
  Step 1: 创建项目目录
  Step 2: 初始化项目框架
  Step 3: 编写首页代码
  Step 4: 添加文章页面
  Step 5: 配置样式
  Step 6: 启动本地服务器验证

Agent 执行：逐步完成每个步骤...

3. 记忆系统（Memory）

1
2
3

短期记忆：当前对话的内容（对话结束就消失）
长期记忆：跨对话保存的知识（用户偏好、项目信息）
工作记忆：当前任务的中间状态（待办列表、执行计划）

2.3 Agent 的应用场景

场景	Agent 能做什么
代码开发	写代码、修 bug、做代码审查
数据分析	读数据、生成图表、写分析报告
运维监控	检查服务状态、自动修复故障
文档处理	读文档、提取信息、生成摘要
客户服务	回答问题、处理工单、转人工

三、Skill：Agent 的”技能包”

3.1 什么是 Skill

如果 Agent 是一个人，Skill 就是这个人掌握的具体技能。

Agent（人）
├── Skill: 写代码        → 会用 IDE、知道编程规范
├── Skill: 做代码审查     → 知道检查什么、怎么评价
├── Skill: 部署应用       → 会用 Docker、了解 CI/CD
└── Skill: 写文档         → 知道文档结构、写作技巧

3.2 Skill vs Tool 的区别

Tool（工具）= 锤子、螺丝刀、扳手（原子操作）
Skill（技能）= 木工手艺、电路维修（组合多个工具的完整流程）

一个 Skill 内部可能用到多个 Tool：
  "代码审查" Skill
    ├── Tool: 读取文件
    ├── Tool: 搜索代码
    ├── Tool: 分析依赖
    └── Tool: 生成报告

3.3 Skill 的结构

一个 Skill 通常包含：

名称: 代码审查
触发条件: 用户说"帮我看看代码" / "code review"
所需工具: [读取文件, 搜索代码, 运行测试]
执行步骤:
  1. 读取代码变更（diff）
  2. 检查逻辑错误
  3. 检查安全漏洞
  4. 检查代码风格
  5. 生成审查报告
输出格式: 结构化的审查意见

3.4 Skill 的分类

通用 Skill：任何项目都能用
  ├── 代码格式化
  ├── 文件搜索
  └── 终端操作

领域 Skill：特定技术栈
  ├── React 组件开发
  ├── SQL 查询优化
  └── Docker 配置

项目 Skill：特定项目专用
  ├── 部署到公司服务器
  ├── 运行项目测试套件
  └── 遵循团队编码规范

四、RAG：让 AI 学会”查资料”

4.1 为什么需要 RAG

大模型有两个致命问题：

知识有截止日期：不知道公司内部文档、不知道今天的新闻
会编造答案：遇到不知道的问题，可能一本正经地胡说

RAG（Retrieval Augmented Generation，检索增强生成）就是解决这两个问题的。

4.2 RAG 的原理

RAG 的核心思路：先查资料，再回答问题。

传统方式：
  用户提问 → AI 直接回答（可能答错）

RAG 方式：
  用户提问 → 先从知识库检索相关资料 → 把资料给 AI → AI 根据资料回答

具体流程：

Step 1: 建立知识库
  ┌─────────────────────────┐
  │  公司文档               │
  │  产品手册               │  → 切分成小段 → 转成向量 → 存入向量数据库
  │  技术规范               │
  │  历史工单               │
  └─────────────────────────┘

Step 2: 用户提问
  "我们的退款政策是什么？"

Step 3: 检索相关文档
  从向量数据库中找到最相关的 3-5 段文档

Step 4: AI 根据文档回答
  输入：用户问题 + 检索到的文档
  输出："根据公司退款政策，购买后 7 天内可无理由退款..."

4.3 向量搜索：RAG 的核心技术

传统搜索是关键词匹配，向量搜索是语义匹配。

关键词搜索：
  搜索："退款" → 只能找到包含"退款"两个字的文档
  遗漏："退货返款"、"钱退回去了" → 找不到

向量搜索：
  把文字转成一组数字（向量），比如：
  "退款"    → [0.2, 0.8, 0.1, ...]
  "退货返款" → [0.21, 0.79, 0.12, ...]  ← 向量很接近！

  语义相近的文字，向量也相近 → 能找到语义相关的内容

4.4 RAG 实战架构

┌─────────────────────────────────────────┐
│                RAG 系统                   │
├─────────────────────────────────────────┤
│                                         │
│  ┌──────────┐    ┌──────────────────┐   │
│  │ 知识库    │    │  向量数据库       │   │
│  │ 文档上传  │ →  │  文本切片         │   │
│  │ 文本切分  │    │  向量化存储       │   │
│  │ 向量化    │    │  相似度检索       │   │
│  └──────────┘    └────────┬─────────┘   │
│                           │              │
│  ┌──────────┐    ┌────────▼─────────┐   │
│  │ 用户提问  │ →  │  检索 + 生成     │   │
│  └──────────┘    │  相关文档 + 问题  │   │
│                  │  → 大模型生成答案  │   │
│                  └──────────────────┘   │
└─────────────────────────────────────────┘

4.5 RAG 适用场景

场景	说明
企业知识问答	基于内部文档回答员工问题
智能客服	基于产品文档回答客户问题
代码助手	基于项目代码回答开发问题
法律咨询	基于法规条文回答法律问题
医疗问答	基于医学文献回答健康问题

五、工作流编排：让多个 Agent 协作

5.1 为什么需要编排

单个 Agent 能力有限，复杂任务需要多个 Agent 分工协作。

场景：用户说"帮我做一个完整的代码审查"

单 Agent：
  一个 Agent 既读代码、又分析、又写报告 → 效果一般

多 Agent 编排：
  Planner Agent  → 制定审查计划
  Reader Agent   → 读取和分析代码
  Security Agent → 专注安全检查
  Report Agent   → 汇总生成报告
  → 各司其职，效果更好

5.2 常见编排模式

1. 顺序执行（Sequential）

任务 A → 任务 B → 任务 C → 最终结果

示例：数据处理流程
  读取数据 → 清洗数据 → 分析数据 → 生成报告

2. 并行执行（Parallel）

         ┌→ 任务 A ─┐
任务入口 →├→ 任务 B ─├→ 合并结果
         └→ 任务 C ─┘

示例：代码审查
  同时进行：安全检查 + 性能分析 + 风格检查 → 汇总报告

3. 条件分支（Conditional）

判断条件
  ├→ 条件1 → 执行方案 A
  ├→ 条件2 → 执行方案 B
  └→ 条件3 → 执行方案 C

示例：客服分流
  用户问题类型
    ├→ 技术问题 → 技术支持 Agent
    ├→ 退款问题 → 退款处理 Agent
    └→ 其他     → 通用客服 Agent

4. 循环执行（Loop）

重复执行直到满足条件：
  执行任务 → 检查结果 → 不满足 → 再次执行
                              → 满足 → 返回结果

示例：代码修复
  写代码 → 运行测试 → 失败 → 分析错误 → 修改代码 → 再次运行
                                              → 成功 → 完成

5.3 工作流编排工具

工具	特点	适合场景
LangChain	灵活、生态丰富	自定义复杂流程
LangGraph	图状工作流	多 Agent 协作
Dify	可视化、低代码	快速搭建 AI 应用
Coze（扣子）	字节出品、中文友好	国内 AI 应用
CrewAI	角色分工明确	多 Agent 场景

5.4 编排示例：智能客服系统

用户提问
  ↓
Router Agent（路由）
  ├→ 技术问题 → 技术 Agent + RAG（技术文档）
  ├→ 退款问题 → 退款 Agent + RAG（退款政策）
  └→ 其他     → 通用 Agent
  ↓
Response Agent（优化回答）
  ↓
返回给用户

六、其他重要概念

6.1 Prompt Engineering（提示词工程）

和 AI 沟通的”话术”，好的提示词能让 AI 输出质量大幅提升。

差的提示词：
  "帮我写个程序"

好的提示词：
  "请用 Python 写一个函数，功能是：
  1. 接收一个列表作为参数
  2. 去除列表中的重复元素
  3. 按从小到大排序
  4. 返回排序后的列表
  请添加类型注解和 docstring。"

常用技巧：

1. 明确角色：你是一个资深 Java 开发工程师
2. 给出示例：参考这个格式...
3. 分步思考：请一步一步分析
4. 限制范围：只修改这个函数，不要改其他代码
5. 要求解释：请解释你的思路

6.2 Fine-tuning（微调）

用特定领域的数据”再训练”模型，让它更懂你的业务。

1
2
3

通用大模型：什么都知道一点，但不够专业
  ↓ 微调（喂入医疗问答数据）
医疗大模型：对医疗问题回答更准确

方式	成本	效果	适用场景
Prompt Engineering	零成本	一般	快速验证
RAG	低	好	知识问答
Fine-tuning	高	很好	专业领域

6.3 MCP（Model Context Protocol）

Anthropic 提出的开放标准，让 AI 能标准化地连接外部工具和数据源。

传统方式：每个工具都要写专门的对接代码
MCP 方式：统一协议，即插即用

类比：
  USB 接口出现之前 → 每种设备一种接口
  USB 接口出现之后 → 统一接口，插上就能用

6.4 Function Calling（函数调用）

让大模型能结构化地调用函数。

# 你告诉模型有哪些函数可用
tools = [
    {
        "name": "get_weather",
        "description": "查询天气",
        "parameters": {
            "city": {"type": "string", "description": "城市名"}
        }
    }
]

# 用户问："北京今天天气怎么样？"

# 模型返回：
{
    "function": "get_weather",
    "arguments": {"city": "北京"}
}

# 你执行函数，把结果返回给模型
# 模型根据结果生成回答

七、学习路线建议

入门阶段（1-2 周）

1. 了解大模型基本概念（本文）
2. 动手使用 AI 产品（ChatGPT / Claude / 通义千问）
3. 学习 Prompt Engineering 基础
4. 用 AI 辅助写代码、写文档

进阶阶段（2-4 周）

1. 了解 API 调用方式（OpenAI API / Claude API）
2. 搭建一个简单的 RAG 应用
3. 了解 Agent 框架（LangChain / Dify）
4. 尝试搭建一个简单的 AI Agent

实战阶段（1-3 月）

1. 搭建企业级 RAG 系统
2. 开发多 Agent 协作应用
3. 学习工作流编排（LangGraph / Dify）
4. 了解 Fine-tuning 和模型部署
5. 将 AI 能力集成到现有项目中

八、一张图总结

┌─────────────────────────────────────────────────┐
│                  AI 技术全景图                     │
├─────────────────────────────────────────────────┤
│                                                 │
│  ┌──────────────────────────────────────────┐   │
│  │            应用层                         │   │
│  │  智能客服 │ 代码助手 │ 数据分析 │ 内容生成  │   │
│  └────────────────────┬─────────────────────┘   │
│                       │                          │
│  ┌────────────────────▼─────────────────────┐   │
│  │          编排层                            │   │
│  │  工作流编排 │ 多 Agent 协作 │ 条件分支     │   │
│  └────────────────────┬─────────────────────┘   │
│                       │                          │
│  ┌────────────────────▼─────────────────────┐   │
│  │          能力层                            │   │
│  │  Agent │ Skill │ RAG │ Tool Use │ Memory  │   │
│  └────────────────────┬─────────────────────┘   │
│                       │                          │
│  ┌────────────────────▼─────────────────────┐   │
│  │          模型层                            │   │
│  │  GPT │ Claude │ Gemini │ DeepSeek │ Qwen  │   │
│  └──────────────────────────────────────────┘   │
│                                                 │
└─────────────────────────────────────────────────┘

结语

AI 技术的学习不需要高深的数学基础。作为开发者，你只需要理解：

大模型是 AI 的大脑，负责”想”
Agent让 AI 能”做”事情
Skill是 Agent 的具体技能
RAG让 AI 能”查资料”，减少胡说
工作流编排让多个 AI 协同工作

从今天开始，用 AI 辅助你的日常工作，边用边学，是最快的学习方式。

本文作者：John Doe
本文链接：https://3sansai.github.io/2026/05/28/ai-learning-guide/index.html
版权声明：本博客所有文章均采用 BY-NC-SA 许可协议，转载请注明出处！