AI 大模型、Agent 与 Skill:从原理到实践的全面解读
前言
近年来,人工智能领域经历了前所未有的变革。从 GPT 系列到 Claude,从简单的文本生成到能够自主执行复杂任务的智能体(Agent),AI 的能力边界不断被拓展。本文将深入解析三个核心概念:AI 大模型(LLM)、Agent(智能体) 和 Skill(技能),帮助你建立完整的认知框架。
一、AI 大模型(Large Language Model)
1.1 什么是大模型
大模型,全称大语言模型(Large Language Model, LLM),是一种基于深度学习的自然语言处理模型。它通过在海量文本数据上进行预训练,学习语言的统计规律和语义关系,从而具备理解和生成自然语言的能力。
“大”体现在三个维度:
- 参数规模大:从数十亿到数万亿参数
- 训练数据大:涵盖互联网级别的文本语料
- 算力消耗大:训练一次可能需要数千张 GPU 运行数周
1.2 核心架构:Transformer
几乎所有主流大模型都基于 Transformer 架构,其核心是自注意力机制(Self-Attention):
1 | Attention(Q, K, V) = softmax(QK^T / √d_k) V |
Transformer 的关键特性:
- 并行计算:相比 RNN 的顺序处理,Transformer 可以并行处理整个序列
- 长距离依赖:注意力机制让模型能够关注序列中任意位置的信息
- 可扩展性:架构天然适合大规模并行训练
1.3 训练流程
大模型的训练通常分为三个阶段:
阶段一:预训练(Pre-training)
在海量无标注文本上进行自监督学习,任务通常是”预测下一个 token”。这一阶段让模型学会了语言的基本规律、世界知识和推理能力。
阶段二:监督微调(Supervised Fine-Tuning, SFT)
使用人工标注的高质量”指令-回答”对数据,对模型进行微调。这一阶段让模型学会了遵循指令、以对话形式交互。
阶段三:人类反馈强化学习(RLHF / RLAIF)
通过人类偏好排序或 AI 反馈来优化模型输出,使其更符合人类期望——更有帮助、更诚实、更安全。
1.4 主流大模型对比
| 模型 | 开发者 | 特点 |
|---|---|---|
| GPT-4o | OpenAI | 多模态,均衡能力强 |
| Claude (Opus/Sonnet/Haiku) | Anthropic | 长上下文,安全性强,代码能力突出 |
| Gemini | 原生多模态,与 Google 生态集成 | |
| Llama 3 | Meta | 开源,社区活跃 |
| DeepSeek | 深度求索 | 国产开源,性价比高 |
| Qwen | 阿里 | 国产,中文能力强 |
1.5 关键技术参数
上下文窗口(Context Window)
模型一次能处理的最大 token 数量。Claude 支持最高 200K token 的上下文窗口,意味着可以一次性处理整本书的内容。
Temperature
控制输出随机性的参数。Temperature 越低,输出越确定和保守;越高则越多样和创造性。
Token
模型处理文本的基本单位。一个英文单词约 1-2 个 token,一个中文字约 1-2 个 token。
二、Agent(智能体)
2.1 什么是 Agent
如果说大模型是一个”大脑”,那么 Agent(智能体) 就是给这个大脑装上了”手脚”。Agent 是一种能够自主感知环境、制定计划、执行行动并从反馈中学习的 AI 系统。
一个完整的 Agent 具备以下能力:
- 感知(Perception):接收用户输入、读取文件、访问网络等
- 推理(Reasoning):利用 LLM 进行分析和决策
- 规划(Planning):将复杂任务拆解为可执行的步骤
- 行动(Action):调用工具、执行代码、操作外部系统
- 记忆(Memory):维护短期上下文和长期知识
- 反思(Reflection):评估执行结果,必要时调整策略
2.2 Agent 的架构模式
ReAct 模式(Reasoning + Acting)
最经典的 Agent 架构,交替进行推理和行动:
1 | Thought: 我需要查找用户的代码库中是否有相关的错误处理 |
Plan-and-Execute 模式
先制定完整计划,再逐步执行:
1 | Plan: |
Multi-Agent 模式
多个专业 Agent 协作完成任务:
1 | User Request |
2.3 Agent 的核心组件
工具调用(Tool Use / Function Calling)
Agent 的”手脚”,允许 LLM 与外部世界交互:
1 | tools = [ |
LLM 根据任务需求决定调用哪个工具、传入什么参数,Agent 执行后将结果返回给 LLM 继续推理。
记忆系统(Memory)
- 短期记忆:当前对话的上下文,随对话结束而消失
- 长期记忆:跨会话持久化的知识,如用户偏好、项目结构等
- 工作记忆:当前任务的中间状态,如待办事项列表、执行计划等
规划能力(Planning)
Agent 能够将模糊的用户需求转化为具体的执行步骤:
1 | 用户需求:"给这个项目添加暗黑模式" |
2.4 主流 Agent 框架
| 框架 | 特点 |
|---|---|
| Claude Code | Anthropic 官方 CLI Agent,深度集成 Claude 模型,支持代码编辑、文件操作、终端命令 |
| AutoGPT | 早期自主 Agent,强调完全自主执行 |
| LangChain / LangGraph | 灵活的 Agent 编排框架,支持复杂的图状工作流 |
| CrewAI | 多 Agent 协作框架,角色分工明确 |
| OpenAI Assistants API | OpenAI 的 Agent 服务,内置工具调用 |
| Dify | 可视化 Agent 搭建平台,低代码 |
2.5 Agent 的实际应用场景
软件开发 Agent
能够理解需求、编写代码、运行测试、修复 bug,甚至进行代码审查。Claude Code 就是典型代表。
数据分析 Agent
自动探索数据集、生成分析代码、绘制图表、撰写分析报告。
运维 Agent
监控系统状态、自动诊断故障、执行修复操作、编写运维文档。
研究 Agent
检索文献、整理资料、总结要点、生成研究报告。
三、Skill(技能)
3.1 什么是 Skill
Skill 是 Agent 能力的模块化封装。如果说 Agent 是一个人,那么 Skill 就是这个人掌握的各项具体技能。
在 Agent 系统中,Skill 通常指:
- 一个预定义的任务流程
- 一组专用的工具和提示词
- 一种可复用的能力单元
3.2 Skill 与 Tool 的区别
很多人容易混淆 Skill 和 Tool,它们的关键区别在于:
| 维度 | Tool(工具) | Skill(技能) |
|---|---|---|
| 粒度 | 原子操作 | 组合多个工具的流程 |
| 智能程度 | 被动调用,不做决策 | 包含推理和决策逻辑 |
| 示例 | read_file()、search() |
“代码审查”、”部署上线” |
| 类比 | 锤子、螺丝刀 | 木工手艺、电路维修 |
一个 Skill 内部可能调用多个 Tool,并包含条件判断和循环逻辑。
3.3 Skill 的设计模式
单步技能
最简单的 Skill,执行单一明确的任务:
1 | Skill: format_code |
多步技能
包含多个顺序执行步骤的 Skill:
1 | Skill: code_review |
条件技能
根据中间结果动态调整流程:
1 | Skill: debug_error |
3.4 Claude Code 中的 Skill 实现
以 Claude Code 为例,Skill 通过配置文件和提示词来定义:
Skill 的触发方式:
1 | # 在 CLAUDE.md 中定义的 Skill |
Skill 的典型结构:
1 | name: security-review |
3.5 Skill 的分类
通用技能:适用于所有项目
- 代码格式化
- 文件搜索
- 终端操作
领域技能:针对特定技术栈
- React 组件生成
- SQL 查询优化
- Docker 配置管理
项目技能:针对特定项目
- 部署到特定服务器
- 运行特定测试套件
- 遵循项目编码规范
3.6 如何构建高质量 Skill
一个好的 Skill 应该具备:
- 单一职责:一个 Skill 只做一件事,做好一件事
- 明确输入输出:清晰定义输入参数和输出格式
- 可组合性:可以和其他 Skill 组合使用
- 错误处理:优雅处理异常情况
- 可测试性:可以独立验证 Skill 的正确性
四、三者的关系:从大模型到智能系统
4.1 层次关系
1 | ┌─────────────────────────────────────┐ |
4.2 协作流程
以”帮我重构这段代码”为例:
- 用户输入 → “帮我重构这段代码,提升可读性”
- Agent 感知 → 读取用户指定的文件
- LLM 推理 → 分析代码结构,识别重构机会
- Agent 规划 → 制定重构步骤(提取函数、重命名变量、消除重复等)
- Skill 执行 → 调用”代码重构”Skill,依次修改各文件
- LLM 验证 → 检查修改是否正确,是否引入新问题
- Agent 反思 → 确认重构结果,报告给用户
4.3 发展趋势
更强大的基础模型
模型的推理能力、上下文长度、多模态理解持续提升,为 Agent 提供更强的”大脑”。
更丰富的 Skill 生态
社区驱动的 Skill 库不断壮大,Agent 可以像手机安装 App 一样获得新能力。
更智能的协作模式
从单 Agent 到多 Agent 协作,从人类监督到人类监督下的自主执行,Agent 的自主性逐步提升。
更深度的工具集成
Agent 与 IDE、浏览器、操作系统、云平台的集成越来越紧密,几乎可以操作任何数字系统。
五、实践建议
5.1 选择合适的模型
- 日常对话和写作:Claude Sonnet / GPT-4o,性价比高
- 复杂推理和编程:Claude Opus / GPT-4,能力上限更高
- 轻量任务:Claude Haiku / GPT-4o-mini,速度快成本低
- 隐私敏感:本地部署开源模型(Llama、Qwen 等)
5.2 有效使用 Agent
- 提供清晰的上下文:告诉 Agent 项目背景、技术栈、编码规范
- 分步验证:不要让 Agent 一次性完成过多任务,逐步验证
- 善用记忆:利用 CLAUDE.md、memory 等机制保持上下文连贯
- 保持控制权:Agent 是工具而非替代品,关键决策由人类做出
5.3 设计好你的 Skill
- 从高频重复任务中提炼 Skill
- 保持 Skill 的通用性和可配置性
- 为 Skill 编写清晰的描述和使用示例
- 定期回顾和优化 Skill 的效果
结语
AI 大模型提供了理解和生成语言的能力基础,Agent 赋予了 AI 自主行动的能力,而 Skill 则将这些能力模块化、可复用化。三者结合,正在构建一个全新的智能计算范式——不再是人去适应工具,而是 AI 来理解人的意图并主动完成任务。
我们正站在一个新时代的起点。理解这些技术的本质,不仅能帮助我们更好地使用现有工具,更能启发我们去创造下一代智能应用。
- 本文作者:John Doe
- 本文链接:https://3sansai.github.io/2026/05/28/ai-large-model-agent-skill/index.html
- 版权声明:本博客所有文章均采用 BY-NC-SA 许可协议,转载请注明出处!