AI 学习路线图:从大模型到 Agent 的完整入门指南

前言

AI 正在改变软件开发的方式。从简单的聊天机器人,到能自主完成复杂任务的智能体(Agent),再到能检索企业知识的 RAG 系统——AI 技术栈正在成为每个开发者的必修课。

本文用通俗易懂的语言,带你从零理解 AI 技术的核心概念,适合没有 AI 背景的开发者阅读。


一、AI 大模型:AI 的”大脑”

1.1 什么是大模型

大模型(LLM,Large Language Model)就是一个超级”文字接龙”程序

你给它一句话的开头,它根据学到的规律,一个字一个字地往下接,直到生成完整的回答。

1
2
你问:  "中国的首都是"
它接: "北" → "京" → "。"

听起来简单,但当模型有几千亿个参数、读过互联网上几乎所有的文字后,它就变得异常强大——能写代码、翻译、写文章、做数学题。

1.2 常见大模型

模型 公司 特点 适合场景
GPT-4o OpenAI 综合能力强 通用场景
Claude Anthropic 长文本、代码能力强 编程、文档分析
Gemini Google 多模态(文字+图片+视频) 多媒体处理
DeepSeek 深度求索 开源、性价比高 国内项目
Qwen(通义千问) 阿里 中文能力强 中文场景
Llama Meta 开源、社区活跃 私有化部署

1.3 关键概念

Token(词元)

模型不直接处理文字,而是把文字拆成 Token。一个中文字约 1-2 个 token,一个英文单词约 1-2 个 token。

1
2
"我爱编程" → ["我", "爱", "编程"] → 3 个 token
"Hello World" → ["Hello", " World"] → 2 个 token

上下文窗口(Context Window)

模型一次能”看到”的文字总量。就像人的短期记忆,有容量限制。

1
2
3
GPT-4o:     128K token ≈ 一本 300 页的书
Claude: 200K token ≈ 一本 500 页的书
Gemini: 1M token ≈ 一整套百科全书

Temperature(温度)

控制回答”随机性”的参数。

1
2
3
Temperature = 0:    每次回答几乎一样(适合代码、数学)
Temperature = 0.7: 适度变化(适合日常对话)
Temperature = 1.5: 非常随机(适合创意写作)

1.4 大模型的局限

大模型不是万能的,它有明显的短板:

  • 知识有截止日期:不知道今天发生了什么
  • **会”一本正经地胡说八道”**:专业术语叫”幻觉”
  • 无法访问外部系统:不能查数据库、不能调 API
  • 推理能力有限:复杂逻辑推理容易出错

这就引出了下一个概念——Agent


二、Agent:给 AI 装上”手和脚”

2.1 什么是 Agent

大模型只能”想”,不能”做”。Agent 就是让 AI 能自主行动的系统。

打个比方:

1
2
大模型 = 一个博学的大脑,只能坐在那里思考
Agent = 给大脑装上了手(工具)、脚(执行)、眼睛(感知)

一个完整的 Agent 循环:

1
2
3
4
5
6
7
8
9
10
11
12
13
用户需求

感知 → "用户要我做什么?"

推理 → "我该怎么做?分几步?"

行动 → 调用工具执行操作

观察 → "结果对不对?"

反思 → "需要调整吗?"

返回结果给用户

2.2 Agent 的核心能力

1. 工具调用(Tool Use)

Agent 能调用各种工具,就像人使用电脑一样:

1
2
3
4
5
6
7
工具列表:
├── 读写文件 → read_file() / write_file()
├── 执行命令 → run_command()
├── 搜索网页 → web_search()
├── 查询数据库 → query_database()
├── 调用 API → call_api()
└── 发送消息 → send_message()

AI 根据任务自动决定用哪个工具:

1
2
3
4
5
6
用户:"帮我查一下数据库里有多少用户"

AI 思考:需要查询数据库
AI 行动:调用 query_database("SELECT COUNT(*) FROM users")
AI 观察:返回结果 15234
AI 回答:"数据库中共有 15,234 个用户。"

2. 规划能力(Planning)

Agent 能把复杂任务拆成可执行的步骤:

1
2
3
4
5
6
7
8
9
10
11
用户:"帮我搭建一个博客网站"

Agent 规划:
Step 1: 创建项目目录
Step 2: 初始化项目框架
Step 3: 编写首页代码
Step 4: 添加文章页面
Step 5: 配置样式
Step 6: 启动本地服务器验证

Agent 执行:逐步完成每个步骤...

3. 记忆系统(Memory)

1
2
3
短期记忆:当前对话的内容(对话结束就消失)
长期记忆:跨对话保存的知识(用户偏好、项目信息)
工作记忆:当前任务的中间状态(待办列表、执行计划)

2.3 Agent 的应用场景

场景 Agent 能做什么
代码开发 写代码、修 bug、做代码审查
数据分析 读数据、生成图表、写分析报告
运维监控 检查服务状态、自动修复故障
文档处理 读文档、提取信息、生成摘要
客户服务 回答问题、处理工单、转人工

三、Skill:Agent 的”技能包”

3.1 什么是 Skill

如果 Agent 是一个人,Skill 就是这个人掌握的具体技能

1
2
3
4
5
Agent(人)
├── Skill: 写代码 → 会用 IDE、知道编程规范
├── Skill: 做代码审查 → 知道检查什么、怎么评价
├── Skill: 部署应用 → 会用 Docker、了解 CI/CD
└── Skill: 写文档 → 知道文档结构、写作技巧

3.2 Skill vs Tool 的区别

1
2
3
4
5
6
7
8
9
Tool(工具)= 锤子、螺丝刀、扳手(原子操作)
Skill(技能)= 木工手艺、电路维修(组合多个工具的完整流程)

一个 Skill 内部可能用到多个 Tool:
"代码审查" Skill
├── Tool: 读取文件
├── Tool: 搜索代码
├── Tool: 分析依赖
└── Tool: 生成报告

3.3 Skill 的结构

一个 Skill 通常包含:

1
2
3
4
5
6
7
8
9
10
名称: 代码审查
触发条件: 用户说"帮我看看代码" / "code review"
所需工具: [读取文件, 搜索代码, 运行测试]
执行步骤:
1. 读取代码变更(diff)
2. 检查逻辑错误
3. 检查安全漏洞
4. 检查代码风格
5. 生成审查报告
输出格式: 结构化的审查意见

3.4 Skill 的分类

1
2
3
4
5
6
7
8
9
10
11
12
13
14
通用 Skill:任何项目都能用
├── 代码格式化
├── 文件搜索
└── 终端操作

领域 Skill:特定技术栈
├── React 组件开发
├── SQL 查询优化
└── Docker 配置

项目 Skill:特定项目专用
├── 部署到公司服务器
├── 运行项目测试套件
└── 遵循团队编码规范

四、RAG:让 AI 学会”查资料”

4.1 为什么需要 RAG

大模型有两个致命问题:

  1. 知识有截止日期:不知道公司内部文档、不知道今天的新闻
  2. 会编造答案:遇到不知道的问题,可能一本正经地胡说

RAG(Retrieval Augmented Generation,检索增强生成)就是解决这两个问题的。

4.2 RAG 的原理

RAG 的核心思路:先查资料,再回答问题

1
2
3
4
5
传统方式:
用户提问 → AI 直接回答(可能答错)

RAG 方式:
用户提问 → 先从知识库检索相关资料 → 把资料给 AI → AI 根据资料回答

具体流程:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Step 1: 建立知识库
┌─────────────────────────┐
│ 公司文档 │
│ 产品手册 │ → 切分成小段 → 转成向量 → 存入向量数据库
│ 技术规范 │
│ 历史工单 │
└─────────────────────────┘

Step 2: 用户提问
"我们的退款政策是什么?"

Step 3: 检索相关文档
从向量数据库中找到最相关的 3-5 段文档

Step 4: AI 根据文档回答
输入:用户问题 + 检索到的文档
输出:"根据公司退款政策,购买后 7 天内可无理由退款..."

4.3 向量搜索:RAG 的核心技术

传统搜索是关键词匹配,向量搜索是语义匹配

1
2
3
4
5
6
7
8
9
10
关键词搜索:
搜索:"退款" → 只能找到包含"退款"两个字的文档
遗漏:"退货返款"、"钱退回去了" → 找不到

向量搜索:
把文字转成一组数字(向量),比如:
"退款" → [0.2, 0.8, 0.1, ...]
"退货返款" → [0.21, 0.79, 0.12, ...] ← 向量很接近!

语义相近的文字,向量也相近 → 能找到语义相关的内容

4.4 RAG 实战架构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
┌─────────────────────────────────────────┐
│ RAG 系统 │
├─────────────────────────────────────────┤
│ │
│ ┌──────────┐ ┌──────────────────┐ │
│ │ 知识库 │ │ 向量数据库 │ │
│ │ 文档上传 │ → │ 文本切片 │ │
│ │ 文本切分 │ │ 向量化存储 │ │
│ │ 向量化 │ │ 相似度检索 │ │
│ └──────────┘ └────────┬─────────┘ │
│ │ │
│ ┌──────────┐ ┌────────▼─────────┐ │
│ │ 用户提问 │ → │ 检索 + 生成 │ │
│ └──────────┘ │ 相关文档 + 问题 │ │
│ │ → 大模型生成答案 │ │
│ └──────────────────┘ │
└─────────────────────────────────────────┘

4.5 RAG 适用场景

场景 说明
企业知识问答 基于内部文档回答员工问题
智能客服 基于产品文档回答客户问题
代码助手 基于项目代码回答开发问题
法律咨询 基于法规条文回答法律问题
医疗问答 基于医学文献回答健康问题

五、工作流编排:让多个 Agent 协作

5.1 为什么需要编排

单个 Agent 能力有限,复杂任务需要多个 Agent 分工协作

1
2
3
4
5
6
7
8
9
10
11
场景:用户说"帮我做一个完整的代码审查"

单 Agent:
一个 Agent 既读代码、又分析、又写报告 → 效果一般

多 Agent 编排:
Planner Agent → 制定审查计划
Reader Agent → 读取和分析代码
Security Agent → 专注安全检查
Report Agent → 汇总生成报告
→ 各司其职,效果更好

5.2 常见编排模式

1. 顺序执行(Sequential)

1
2
3
4
任务 A → 任务 B → 任务 C → 最终结果

示例:数据处理流程
读取数据 → 清洗数据 → 分析数据 → 生成报告

2. 并行执行(Parallel)

1
2
3
4
5
6
         ┌→ 任务 A ─┐
任务入口 →├→ 任务 B ─├→ 合并结果
└→ 任务 C ─┘

示例:代码审查
同时进行:安全检查 + 性能分析 + 风格检查 → 汇总报告

3. 条件分支(Conditional)

1
2
3
4
5
6
7
8
9
10
判断条件
├→ 条件1 → 执行方案 A
├→ 条件2 → 执行方案 B
└→ 条件3 → 执行方案 C

示例:客服分流
用户问题类型
├→ 技术问题 → 技术支持 Agent
├→ 退款问题 → 退款处理 Agent
└→ 其他 → 通用客服 Agent

4. 循环执行(Loop)

1
2
3
4
5
6
7
重复执行直到满足条件:
执行任务 → 检查结果 → 不满足 → 再次执行
→ 满足 → 返回结果

示例:代码修复
写代码 → 运行测试 → 失败 → 分析错误 → 修改代码 → 再次运行
→ 成功 → 完成

5.3 工作流编排工具

工具 特点 适合场景
LangChain 灵活、生态丰富 自定义复杂流程
LangGraph 图状工作流 多 Agent 协作
Dify 可视化、低代码 快速搭建 AI 应用
Coze(扣子) 字节出品、中文友好 国内 AI 应用
CrewAI 角色分工明确 多 Agent 场景

5.4 编排示例:智能客服系统

1
2
3
4
5
6
7
8
9
10
用户提问

Router Agent(路由)
├→ 技术问题 → 技术 Agent + RAG(技术文档)
├→ 退款问题 → 退款 Agent + RAG(退款政策)
└→ 其他 → 通用 Agent

Response Agent(优化回答)

返回给用户

六、其他重要概念

6.1 Prompt Engineering(提示词工程)

和 AI 沟通的”话术”,好的提示词能让 AI 输出质量大幅提升。

1
2
3
4
5
6
7
8
9
10
差的提示词:
"帮我写个程序"

好的提示词:
"请用 Python 写一个函数,功能是:
1. 接收一个列表作为参数
2. 去除列表中的重复元素
3. 按从小到大排序
4. 返回排序后的列表
请添加类型注解和 docstring。"

常用技巧:

1
2
3
4
5
1. 明确角色:你是一个资深 Java 开发工程师
2. 给出示例:参考这个格式...
3. 分步思考:请一步一步分析
4. 限制范围:只修改这个函数,不要改其他代码
5. 要求解释:请解释你的思路

6.2 Fine-tuning(微调)

用特定领域的数据”再训练”模型,让它更懂你的业务。

1
2
3
通用大模型:什么都知道一点,但不够专业
↓ 微调(喂入医疗问答数据)
医疗大模型:对医疗问题回答更准确
方式 成本 效果 适用场景
Prompt Engineering 零成本 一般 快速验证
RAG 知识问答
Fine-tuning 很好 专业领域

6.3 MCP(Model Context Protocol)

Anthropic 提出的开放标准,让 AI 能标准化地连接外部工具和数据源

1
2
3
4
5
6
传统方式:每个工具都要写专门的对接代码
MCP 方式:统一协议,即插即用

类比:
USB 接口出现之前 → 每种设备一种接口
USB 接口出现之后 → 统一接口,插上就能用

6.4 Function Calling(函数调用)

让大模型能结构化地调用函数

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
# 你告诉模型有哪些函数可用
tools = [
{
"name": "get_weather",
"description": "查询天气",
"parameters": {
"city": {"type": "string", "description": "城市名"}
}
}
]

# 用户问:"北京今天天气怎么样?"

# 模型返回:
{
"function": "get_weather",
"arguments": {"city": "北京"}
}

# 你执行函数,把结果返回给模型
# 模型根据结果生成回答

七、学习路线建议

入门阶段(1-2 周)

1
2
3
4
1. 了解大模型基本概念(本文)
2. 动手使用 AI 产品(ChatGPT / Claude / 通义千问)
3. 学习 Prompt Engineering 基础
4. 用 AI 辅助写代码、写文档

进阶阶段(2-4 周)

1
2
3
4
1. 了解 API 调用方式(OpenAI API / Claude API)
2. 搭建一个简单的 RAG 应用
3. 了解 Agent 框架(LangChain / Dify)
4. 尝试搭建一个简单的 AI Agent

实战阶段(1-3 月)

1
2
3
4
5
1. 搭建企业级 RAG 系统
2. 开发多 Agent 协作应用
3. 学习工作流编排(LangGraph / Dify)
4. 了解 Fine-tuning 和模型部署
5. 将 AI 能力集成到现有项目中

推荐学习资源

1
2
3
4
5
6
7
8
9
10
11
12
13
官方文档:
- OpenAI API 文档
- Anthropic Claude 文档
- LangChain 文档

实战平台:
- Dify(可视化搭建 AI 应用)
- Coze / 扣子(字节跳动 AI 平台)
- Hugging Face(开源模型社区)

社区:
- GitHub 上的 AI 开源项目
- 各大模型的开发者论坛

八、一张图总结

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
┌─────────────────────────────────────────────────┐
│ AI 技术全景图 │
├─────────────────────────────────────────────────┤
│ │
│ ┌──────────────────────────────────────────┐ │
│ │ 应用层 │ │
│ │ 智能客服 │ 代码助手 │ 数据分析 │ 内容生成 │ │
│ └────────────────────┬─────────────────────┘ │
│ │ │
│ ┌────────────────────▼─────────────────────┐ │
│ │ 编排层 │ │
│ │ 工作流编排 │ 多 Agent 协作 │ 条件分支 │ │
│ └────────────────────┬─────────────────────┘ │
│ │ │
│ ┌────────────────────▼─────────────────────┐ │
│ │ 能力层 │ │
│ │ Agent │ Skill │ RAG │ Tool Use │ Memory │ │
│ └────────────────────┬─────────────────────┘ │
│ │ │
│ ┌────────────────────▼─────────────────────┐ │
│ │ 模型层 │ │
│ │ GPT │ Claude │ Gemini │ DeepSeek │ Qwen │ │
│ └──────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────┘

结语

AI 技术的学习不需要高深的数学基础。作为开发者,你只需要理解:

  1. 大模型是 AI 的大脑,负责”想”
  2. Agent让 AI 能”做”事情
  3. Skill是 Agent 的具体技能
  4. RAG让 AI 能”查资料”,减少胡说
  5. 工作流编排让多个 AI 协同工作

从今天开始,用 AI 辅助你的日常工作,边用边学,是最快的学习方式。

🔥 0 打卡天