AI 大模型、Agent 与 Skill:从原理到实践的全面解读

前言

近年来,人工智能领域经历了前所未有的变革。从 GPT 系列到 Claude,从简单的文本生成到能够自主执行复杂任务的智能体(Agent),AI 的能力边界不断被拓展。本文将深入解析三个核心概念:AI 大模型(LLM)Agent(智能体)Skill(技能),帮助你建立完整的认知框架。


一、AI 大模型(Large Language Model)

1.1 什么是大模型

大模型,全称大语言模型(Large Language Model, LLM),是一种基于深度学习的自然语言处理模型。它通过在海量文本数据上进行预训练,学习语言的统计规律和语义关系,从而具备理解和生成自然语言的能力。

“大”体现在三个维度:

  • 参数规模大:从数十亿到数万亿参数
  • 训练数据大:涵盖互联网级别的文本语料
  • 算力消耗大:训练一次可能需要数千张 GPU 运行数周

1.2 核心架构:Transformer

几乎所有主流大模型都基于 Transformer 架构,其核心是自注意力机制(Self-Attention)

1
Attention(Q, K, V) = softmax(QK^T / √d_k) V

Transformer 的关键特性:

  • 并行计算:相比 RNN 的顺序处理,Transformer 可以并行处理整个序列
  • 长距离依赖:注意力机制让模型能够关注序列中任意位置的信息
  • 可扩展性:架构天然适合大规模并行训练

1.3 训练流程

大模型的训练通常分为三个阶段:

阶段一:预训练(Pre-training)

在海量无标注文本上进行自监督学习,任务通常是”预测下一个 token”。这一阶段让模型学会了语言的基本规律、世界知识和推理能力。

阶段二:监督微调(Supervised Fine-Tuning, SFT)

使用人工标注的高质量”指令-回答”对数据,对模型进行微调。这一阶段让模型学会了遵循指令、以对话形式交互。

阶段三:人类反馈强化学习(RLHF / RLAIF)

通过人类偏好排序或 AI 反馈来优化模型输出,使其更符合人类期望——更有帮助、更诚实、更安全。

1.4 主流大模型对比

模型 开发者 特点
GPT-4o OpenAI 多模态,均衡能力强
Claude (Opus/Sonnet/Haiku) Anthropic 长上下文,安全性强,代码能力突出
Gemini Google 原生多模态,与 Google 生态集成
Llama 3 Meta 开源,社区活跃
DeepSeek 深度求索 国产开源,性价比高
Qwen 阿里 国产,中文能力强

1.5 关键技术参数

上下文窗口(Context Window)

模型一次能处理的最大 token 数量。Claude 支持最高 200K token 的上下文窗口,意味着可以一次性处理整本书的内容。

Temperature

控制输出随机性的参数。Temperature 越低,输出越确定和保守;越高则越多样和创造性。

Token

模型处理文本的基本单位。一个英文单词约 1-2 个 token,一个中文字约 1-2 个 token。


二、Agent(智能体)

2.1 什么是 Agent

如果说大模型是一个”大脑”,那么 Agent(智能体) 就是给这个大脑装上了”手脚”。Agent 是一种能够自主感知环境、制定计划、执行行动并从反馈中学习的 AI 系统。

一个完整的 Agent 具备以下能力:

  • 感知(Perception):接收用户输入、读取文件、访问网络等
  • 推理(Reasoning):利用 LLM 进行分析和决策
  • 规划(Planning):将复杂任务拆解为可执行的步骤
  • 行动(Action):调用工具、执行代码、操作外部系统
  • 记忆(Memory):维护短期上下文和长期知识
  • 反思(Reflection):评估执行结果,必要时调整策略

2.2 Agent 的架构模式

ReAct 模式(Reasoning + Acting)

最经典的 Agent 架构,交替进行推理和行动:

1
2
3
4
5
Thought: 我需要查找用户的代码库中是否有相关的错误处理
Action: search_code("error handling")
Observation: 找到了 3 个相关文件...
Thought: 现在我了解了错误处理的模式,接下来需要...
Action: edit_file("src/utils.js", ...)

Plan-and-Execute 模式

先制定完整计划,再逐步执行:

1
2
3
4
5
6
7
8
Plan:
1. 分析现有代码结构
2. 确定需要修改的文件
3. 实现新功能
4. 编写测试
5. 验证结果

Execute: Step 1 → Step 2 → ...

Multi-Agent 模式

多个专业 Agent 协作完成任务:

1
2
3
4
5
6
7
8
9
User Request

├─→ Planner Agent (制定计划)
│ │
│ ├─→ Coder Agent (编写代码)
│ ├─→ Reviewer Agent (代码审查)
│ └─→ Tester Agent (运行测试)

└─→ Response

2.3 Agent 的核心组件

工具调用(Tool Use / Function Calling)

Agent 的”手脚”,允许 LLM 与外部世界交互:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
tools = [
{
"name": "read_file",
"description": "读取指定路径的文件内容",
"parameters": {
"file_path": {"type": "string", "description": "文件的绝对路径"}
}
},
{
"name": "execute_command",
"description": "执行 shell 命令",
"parameters": {
"command": {"type": "string", "description": "要执行的命令"}
}
}
]

LLM 根据任务需求决定调用哪个工具、传入什么参数,Agent 执行后将结果返回给 LLM 继续推理。

记忆系统(Memory)

  • 短期记忆:当前对话的上下文,随对话结束而消失
  • 长期记忆:跨会话持久化的知识,如用户偏好、项目结构等
  • 工作记忆:当前任务的中间状态,如待办事项列表、执行计划等

规划能力(Planning)

Agent 能够将模糊的用户需求转化为具体的执行步骤:

1
2
3
4
5
6
7
8
9
10
用户需求:"给这个项目添加暗黑模式"

Agent 规划:
1. 探索项目结构,了解技术栈
2. 检查是否已有主题系统
3. 设计暗黑模式的颜色方案
4. 修改 CSS 变量 / 主题配置
5. 添加切换按钮的 UI 组件
6. 实现主题切换逻辑
7. 测试各种页面的显示效果

2.4 主流 Agent 框架

框架 特点
Claude Code Anthropic 官方 CLI Agent,深度集成 Claude 模型,支持代码编辑、文件操作、终端命令
AutoGPT 早期自主 Agent,强调完全自主执行
LangChain / LangGraph 灵活的 Agent 编排框架,支持复杂的图状工作流
CrewAI 多 Agent 协作框架,角色分工明确
OpenAI Assistants API OpenAI 的 Agent 服务,内置工具调用
Dify 可视化 Agent 搭建平台,低代码

2.5 Agent 的实际应用场景

软件开发 Agent

能够理解需求、编写代码、运行测试、修复 bug,甚至进行代码审查。Claude Code 就是典型代表。

数据分析 Agent

自动探索数据集、生成分析代码、绘制图表、撰写分析报告。

运维 Agent

监控系统状态、自动诊断故障、执行修复操作、编写运维文档。

研究 Agent

检索文献、整理资料、总结要点、生成研究报告。


三、Skill(技能)

3.1 什么是 Skill

Skill 是 Agent 能力的模块化封装。如果说 Agent 是一个人,那么 Skill 就是这个人掌握的各项具体技能。

在 Agent 系统中,Skill 通常指:

  • 一个预定义的任务流程
  • 一组专用的工具和提示词
  • 一种可复用的能力单元

3.2 Skill 与 Tool 的区别

很多人容易混淆 Skill 和 Tool,它们的关键区别在于:

维度 Tool(工具) Skill(技能)
粒度 原子操作 组合多个工具的流程
智能程度 被动调用,不做决策 包含推理和决策逻辑
示例 read_file()search() “代码审查”、”部署上线”
类比 锤子、螺丝刀 木工手艺、电路维修

一个 Skill 内部可能调用多个 Tool,并包含条件判断和循环逻辑。

3.3 Skill 的设计模式

单步技能

最简单的 Skill,执行单一明确的任务:

1
2
3
4
Skill: format_code
输入: 文件路径
流程: 调用 formatter 工具格式化代码
输出: 格式化后的代码

多步技能

包含多个顺序执行步骤的 Skill:

1
2
3
4
5
6
7
8
9
Skill: code_review
输入: 代码变更(diff)
流程:
1. 读取 diff 内容
2. 分析潜在的 bug 和安全问题
3. 检查代码风格和最佳实践
4. 评估性能影响
5. 生成审查报告
输出: 结构化的审查意见

条件技能

根据中间结果动态调整流程:

1
2
3
4
5
6
7
8
9
Skill: debug_error
输入: 错误信息
流程:
1. 分析错误类型
2. IF 语法错误 → 定位并修复
3. IF 依赖问题 → 检查并更新依赖
4. IF 运行时错误 → 添加日志、复现、修复
5. 运行测试验证修复
输出: 修复结果

3.4 Claude Code 中的 Skill 实现

以 Claude Code 为例,Skill 通过配置文件和提示词来定义:

Skill 的触发方式:

1
2
3
4
5
6
7
8
# 在 CLAUDE.md 中定义的 Skill

## 代码审查 Skill
当用户请求代码审查时:
1. 读取当前 diff
2. 检查是否有逻辑错误
3. 检查是否有安全隐患
4. 提出改进建议

Skill 的典型结构:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
name: security-review
description: 对代码变更进行安全审查
triggers:
- "安全审查"
- "security review"
tools_required:
- read_file
- grep
- bash
steps:
- action: read_diff
- action: check_owasp_top10
- action: scan_secrets
- action: generate_report

3.5 Skill 的分类

通用技能:适用于所有项目

  • 代码格式化
  • 文件搜索
  • 终端操作

领域技能:针对特定技术栈

  • React 组件生成
  • SQL 查询优化
  • Docker 配置管理

项目技能:针对特定项目

  • 部署到特定服务器
  • 运行特定测试套件
  • 遵循项目编码规范

3.6 如何构建高质量 Skill

一个好的 Skill 应该具备:

  1. 单一职责:一个 Skill 只做一件事,做好一件事
  2. 明确输入输出:清晰定义输入参数和输出格式
  3. 可组合性:可以和其他 Skill 组合使用
  4. 错误处理:优雅处理异常情况
  5. 可测试性:可以独立验证 Skill 的正确性

四、三者的关系:从大模型到智能系统

4.1 层次关系

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
┌─────────────────────────────────────┐
│ 应用层 (Application) │
│ "帮我写一个 REST API 并部署" │
├─────────────────────────────────────┤
│ Skill 层 (技能) │
│ 代码生成 │ 测试编写 │ 部署配置 │
├─────────────────────────────────────┤
│ Agent 层 (智能体) │
│ 感知 → 推理 → 规划 → 行动 → 反思 │
├─────────────────────────────────────┤
│ LLM 层 (大模型) │
│ GPT-4 │ Claude │ Gemini │ ... │
├─────────────────────────────────────┤
│ 基础设施层 │
│ GPU │ 云服务 │ 存储 │ 网络 │
└─────────────────────────────────────┘

4.2 协作流程

以”帮我重构这段代码”为例:

  1. 用户输入 → “帮我重构这段代码,提升可读性”
  2. Agent 感知 → 读取用户指定的文件
  3. LLM 推理 → 分析代码结构,识别重构机会
  4. Agent 规划 → 制定重构步骤(提取函数、重命名变量、消除重复等)
  5. Skill 执行 → 调用”代码重构”Skill,依次修改各文件
  6. LLM 验证 → 检查修改是否正确,是否引入新问题
  7. Agent 反思 → 确认重构结果,报告给用户

4.3 发展趋势

更强大的基础模型

模型的推理能力、上下文长度、多模态理解持续提升,为 Agent 提供更强的”大脑”。

更丰富的 Skill 生态

社区驱动的 Skill 库不断壮大,Agent 可以像手机安装 App 一样获得新能力。

更智能的协作模式

从单 Agent 到多 Agent 协作,从人类监督到人类监督下的自主执行,Agent 的自主性逐步提升。

更深度的工具集成

Agent 与 IDE、浏览器、操作系统、云平台的集成越来越紧密,几乎可以操作任何数字系统。


五、实践建议

5.1 选择合适的模型

  • 日常对话和写作:Claude Sonnet / GPT-4o,性价比高
  • 复杂推理和编程:Claude Opus / GPT-4,能力上限更高
  • 轻量任务:Claude Haiku / GPT-4o-mini,速度快成本低
  • 隐私敏感:本地部署开源模型(Llama、Qwen 等)

5.2 有效使用 Agent

  • 提供清晰的上下文:告诉 Agent 项目背景、技术栈、编码规范
  • 分步验证:不要让 Agent 一次性完成过多任务,逐步验证
  • 善用记忆:利用 CLAUDE.md、memory 等机制保持上下文连贯
  • 保持控制权:Agent 是工具而非替代品,关键决策由人类做出

5.3 设计好你的 Skill

  • 从高频重复任务中提炼 Skill
  • 保持 Skill 的通用性和可配置性
  • 为 Skill 编写清晰的描述和使用示例
  • 定期回顾和优化 Skill 的效果

结语

AI 大模型提供了理解和生成语言的能力基础,Agent 赋予了 AI 自主行动的能力,而 Skill 则将这些能力模块化、可复用化。三者结合,正在构建一个全新的智能计算范式——不再是人去适应工具,而是 AI 来理解人的意图并主动完成任务。

我们正站在一个新时代的起点。理解这些技术的本质,不仅能帮助我们更好地使用现有工具,更能启发我们去创造下一代智能应用。

🔥 0 打卡天