AI 大模型、Agent 与 Skill：从原理到实践的全面解读

五月 28, 2026 7089

前言

近年来，人工智能领域经历了前所未有的变革。从 GPT 系列到 Claude，从简单的文本生成到能够自主执行复杂任务的智能体（Agent），AI 的能力边界不断被拓展。本文将深入解析三个核心概念：AI 大模型（LLM）、Agent（智能体） 和 Skill（技能），帮助你建立完整的认知框架。

一、AI 大模型（Large Language Model）

1.1 什么是大模型

大模型，全称大语言模型（Large Language Model, LLM），是一种基于深度学习的自然语言处理模型。它通过在海量文本数据上进行预训练，学习语言的统计规律和语义关系，从而具备理解和生成自然语言的能力。

“大”体现在三个维度：

参数规模大：从数十亿到数万亿参数
训练数据大：涵盖互联网级别的文本语料
算力消耗大：训练一次可能需要数千张 GPU 运行数周

1.2 核心架构：Transformer

几乎所有主流大模型都基于 Transformer 架构，其核心是自注意力机制（Self-Attention）：

1	Attention(Q, K, V) = softmax(QK^T / √d_k) V

Transformer 的关键特性：

并行计算：相比 RNN 的顺序处理，Transformer 可以并行处理整个序列
长距离依赖：注意力机制让模型能够关注序列中任意位置的信息
可扩展性：架构天然适合大规模并行训练

1.3 训练流程

大模型的训练通常分为三个阶段：

阶段一：预训练（Pre-training）

在海量无标注文本上进行自监督学习，任务通常是”预测下一个 token”。这一阶段让模型学会了语言的基本规律、世界知识和推理能力。

阶段二：监督微调（Supervised Fine-Tuning, SFT）

使用人工标注的高质量”指令-回答”对数据，对模型进行微调。这一阶段让模型学会了遵循指令、以对话形式交互。

阶段三：人类反馈强化学习（RLHF / RLAIF）

通过人类偏好排序或 AI 反馈来优化模型输出，使其更符合人类期望——更有帮助、更诚实、更安全。

1.4 主流大模型对比

模型	开发者	特点
GPT-4o	OpenAI	多模态，均衡能力强
Claude (Opus/Sonnet/Haiku)	Anthropic	长上下文，安全性强，代码能力突出
Gemini	Google	原生多模态，与 Google 生态集成
Llama 3	Meta	开源，社区活跃
DeepSeek	深度求索	国产开源，性价比高
Qwen	阿里	国产，中文能力强

1.5 关键技术参数

上下文窗口（Context Window）

模型一次能处理的最大 token 数量。Claude 支持最高 200K token 的上下文窗口，意味着可以一次性处理整本书的内容。

Temperature

控制输出随机性的参数。Temperature 越低，输出越确定和保守；越高则越多样和创造性。

Token

模型处理文本的基本单位。一个英文单词约 1-2 个 token，一个中文字约 1-2 个 token。

二、Agent（智能体）

2.1 什么是 Agent

如果说大模型是一个”大脑”，那么 Agent（智能体） 就是给这个大脑装上了”手脚”。Agent 是一种能够自主感知环境、制定计划、执行行动并从反馈中学习的 AI 系统。

一个完整的 Agent 具备以下能力：

感知（Perception）：接收用户输入、读取文件、访问网络等
推理（Reasoning）：利用 LLM 进行分析和决策
规划（Planning）：将复杂任务拆解为可执行的步骤
行动（Action）：调用工具、执行代码、操作外部系统
记忆（Memory）：维护短期上下文和长期知识
反思（Reflection）：评估执行结果，必要时调整策略

2.2 Agent 的架构模式

ReAct 模式（Reasoning + Acting）

最经典的 Agent 架构，交替进行推理和行动：

Thought: 我需要查找用户的代码库中是否有相关的错误处理
Action: search_code("error handling")
Observation: 找到了 3 个相关文件...
Thought: 现在我了解了错误处理的模式，接下来需要...
Action: edit_file("src/utils.js", ...)

Plan-and-Execute 模式

先制定完整计划，再逐步执行：

Plan:
  1. 分析现有代码结构
  2. 确定需要修改的文件
  3. 实现新功能
  4. 编写测试
  5. 验证结果

Execute: Step 1 → Step 2 → ...

Multi-Agent 模式

多个专业 Agent 协作完成任务：

User Request
    │
    ├─→ Planner Agent (制定计划)
    │       │
    │       ├─→ Coder Agent (编写代码)
    │       ├─→ Reviewer Agent (代码审查)
    │       └─→ Tester Agent (运行测试)
    │
    └─→ Response

2.3 Agent 的核心组件

工具调用（Tool Use / Function Calling）

Agent 的”手脚”，允许 LLM 与外部世界交互：

tools = [
    {
        "name": "read_file",
        "description": "读取指定路径的文件内容",
        "parameters": {
            "file_path": {"type": "string", "description": "文件的绝对路径"}
        }
    },
    {
        "name": "execute_command",
        "description": "执行 shell 命令",
        "parameters": {
            "command": {"type": "string", "description": "要执行的命令"}
        }
    }
]

LLM 根据任务需求决定调用哪个工具、传入什么参数，Agent 执行后将结果返回给 LLM 继续推理。

记忆系统（Memory）

短期记忆：当前对话的上下文，随对话结束而消失
长期记忆：跨会话持久化的知识，如用户偏好、项目结构等
工作记忆：当前任务的中间状态，如待办事项列表、执行计划等

规划能力（Planning）

Agent 能够将模糊的用户需求转化为具体的执行步骤：

用户需求："给这个项目添加暗黑模式"

Agent 规划：
  1. 探索项目结构，了解技术栈
  2. 检查是否已有主题系统
  3. 设计暗黑模式的颜色方案
  4. 修改 CSS 变量 / 主题配置
  5. 添加切换按钮的 UI 组件
  6. 实现主题切换逻辑
  7. 测试各种页面的显示效果

2.4 主流 Agent 框架

框架	特点
Claude Code	Anthropic 官方 CLI Agent，深度集成 Claude 模型，支持代码编辑、文件操作、终端命令
AutoGPT	早期自主 Agent，强调完全自主执行
LangChain / LangGraph	灵活的 Agent 编排框架，支持复杂的图状工作流
CrewAI	多 Agent 协作框架，角色分工明确
OpenAI Assistants API	OpenAI 的 Agent 服务，内置工具调用
Dify	可视化 Agent 搭建平台，低代码

2.5 Agent 的实际应用场景

软件开发 Agent

能够理解需求、编写代码、运行测试、修复 bug，甚至进行代码审查。Claude Code 就是典型代表。

数据分析 Agent

自动探索数据集、生成分析代码、绘制图表、撰写分析报告。

运维 Agent

监控系统状态、自动诊断故障、执行修复操作、编写运维文档。

研究 Agent

检索文献、整理资料、总结要点、生成研究报告。

三、Skill（技能）

3.1 什么是 Skill

Skill 是 Agent 能力的模块化封装。如果说 Agent 是一个人，那么 Skill 就是这个人掌握的各项具体技能。

在 Agent 系统中，Skill 通常指：

一个预定义的任务流程
一组专用的工具和提示词
一种可复用的能力单元

3.2 Skill 与 Tool 的区别

很多人容易混淆 Skill 和 Tool，它们的关键区别在于：

维度	Tool（工具）	Skill（技能）
粒度	原子操作	组合多个工具的流程
智能程度	被动调用，不做决策	包含推理和决策逻辑
示例	`read_file()`、`search()`	“代码审查”、”部署上线”
类比	锤子、螺丝刀	木工手艺、电路维修

一个 Skill 内部可能调用多个 Tool，并包含条件判断和循环逻辑。

3.3 Skill 的设计模式

单步技能

最简单的 Skill，执行单一明确的任务：

Skill: format_code
  输入: 文件路径
  流程: 调用 formatter 工具格式化代码
  输出: 格式化后的代码

多步技能

包含多个顺序执行步骤的 Skill：

Skill: code_review
  输入: 代码变更（diff）
  流程:
    1. 读取 diff 内容
    2. 分析潜在的 bug 和安全问题
    3. 检查代码风格和最佳实践
    4. 评估性能影响
    5. 生成审查报告
  输出: 结构化的审查意见

条件技能

根据中间结果动态调整流程：

Skill: debug_error
  输入: 错误信息
  流程:
    1. 分析错误类型
    2. IF 语法错误 → 定位并修复
    3. IF 依赖问题 → 检查并更新依赖
    4. IF 运行时错误 → 添加日志、复现、修复
    5. 运行测试验证修复
  输出: 修复结果

3.4 Claude Code 中的 Skill 实现

以 Claude Code 为例，Skill 通过配置文件和提示词来定义：

Skill 的触发方式：

# 在 CLAUDE.md 中定义的 Skill

## 代码审查 Skill
当用户请求代码审查时：
1. 读取当前 diff
2. 检查是否有逻辑错误
3. 检查是否有安全隐患
4. 提出改进建议

Skill 的典型结构：

name: security-review
description: 对代码变更进行安全审查
triggers:
  - "安全审查"
  - "security review"
tools_required:
  - read_file
  - grep
  - bash
steps:
  - action: read_diff
  - action: check_owasp_top10
  - action: scan_secrets
  - action: generate_report

3.5 Skill 的分类

通用技能：适用于所有项目

代码格式化
文件搜索
终端操作

领域技能：针对特定技术栈

React 组件生成
SQL 查询优化
Docker 配置管理

项目技能：针对特定项目

部署到特定服务器
运行特定测试套件
遵循项目编码规范

3.6 如何构建高质量 Skill

一个好的 Skill 应该具备：

单一职责：一个 Skill 只做一件事，做好一件事
明确输入输出：清晰定义输入参数和输出格式
可组合性：可以和其他 Skill 组合使用
错误处理：优雅处理异常情况
可测试性：可以独立验证 Skill 的正确性

四、三者的关系：从大模型到智能系统

4.1 层次关系

┌─────────────────────────────────────┐
│           应用层 (Application)        │
│   "帮我写一个 REST API 并部署"          │
├─────────────────────────────────────┤
│           Skill 层 (技能)             │
│   代码生成 │ 测试编写 │ 部署配置        │
├─────────────────────────────────────┤
│           Agent 层 (智能体)           │
│   感知 → 推理 → 规划 → 行动 → 反思     │
├─────────────────────────────────────┤
│           LLM 层 (大模型)             │
│   GPT-4 │ Claude │ Gemini │ ...     │
├─────────────────────────────────────┤
│           基础设施层                    │
│   GPU │ 云服务 │ 存储 │ 网络           │
└─────────────────────────────────────┘

4.2 协作流程

以”帮我重构这段代码”为例：

用户输入 → “帮我重构这段代码，提升可读性”
Agent 感知 → 读取用户指定的文件
LLM 推理 → 分析代码结构，识别重构机会
Agent 规划 → 制定重构步骤（提取函数、重命名变量、消除重复等）
Skill 执行 → 调用”代码重构”Skill，依次修改各文件
LLM 验证 → 检查修改是否正确，是否引入新问题
Agent 反思 → 确认重构结果，报告给用户

4.3 发展趋势

更强大的基础模型

模型的推理能力、上下文长度、多模态理解持续提升，为 Agent 提供更强的”大脑”。

更丰富的 Skill 生态

社区驱动的 Skill 库不断壮大，Agent 可以像手机安装 App 一样获得新能力。

更智能的协作模式

从单 Agent 到多 Agent 协作，从人类监督到人类监督下的自主执行，Agent 的自主性逐步提升。

更深度的工具集成

Agent 与 IDE、浏览器、操作系统、云平台的集成越来越紧密，几乎可以操作任何数字系统。

五、实践建议

5.1 选择合适的模型

日常对话和写作：Claude Sonnet / GPT-4o，性价比高
复杂推理和编程：Claude Opus / GPT-4，能力上限更高
轻量任务：Claude Haiku / GPT-4o-mini，速度快成本低
隐私敏感：本地部署开源模型（Llama、Qwen 等）

5.2 有效使用 Agent

提供清晰的上下文：告诉 Agent 项目背景、技术栈、编码规范
分步验证：不要让 Agent 一次性完成过多任务，逐步验证
善用记忆：利用 CLAUDE.md、memory 等机制保持上下文连贯
保持控制权：Agent 是工具而非替代品，关键决策由人类做出

5.3 设计好你的 Skill

从高频重复任务中提炼 Skill
保持 Skill 的通用性和可配置性
为 Skill 编写清晰的描述和使用示例
定期回顾和优化 Skill 的效果

结语

AI 大模型提供了理解和生成语言的能力基础，Agent 赋予了 AI 自主行动的能力，而 Skill 则将这些能力模块化、可复用化。三者结合，正在构建一个全新的智能计算范式——不再是人去适应工具，而是 AI 来理解人的意图并主动完成任务。

我们正站在一个新时代的起点。理解这些技术的本质，不仅能帮助我们更好地使用现有工具，更能启发我们去创造下一代智能应用。

本文作者：John Doe
本文链接：https://3sansai.github.io/2026/05/28/ai-large-model-agent-skill/index.html
版权声明：本博客所有文章均采用 BY-NC-SA 许可协议，转载请注明出处！