2 min read

LLM:Claude Skill:Anthropic 用软件工程思想重构 AI 开发

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断:研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 "LLMRL:'s Razor 抗遗忘(2) 2025-09-04
21 "LLMRL:'s Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘 2025-09-04
23 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
24 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
48 LLM:SimRL(3)质量评估与落地优化 2026-02-03
49 LLM:MCP vs Skills vs Subagent 核心差异与选型指南 2026-03-22
50 LLM:OpenClaw 消息渠道配置实践 2026-03-22
51 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
52 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
53 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
54 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
55 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
56 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
57 LLM:Harness Engineering——代码智能体入门:核心概念与三大关键组件 2026-04-05
58 LLM:OpenClaw 一个月观察 2026-04-07
59 LLM:量化部署系列:(1)多模态模型规模误区与分工协作架构解析 2026-04-07
60 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
61 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
62 LLM:Harness Engineering——Agent系统的信息筛选机制 2026-04-15
63 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15
64 LLM:强化学习风控(1)RLVP框架与专家稠密奖励 2026-04-18
65 LLM:生产级 Agent 工程范式:从 Claude Code 看模型与基础设施的边界 2026-04-22
66 LLM:Harness Engineering——大模型Agent工程迭代 2026-05-03
67 LLM:量化部署系列:(2)动态精度路由与低精度正则化的工程实践 2026-05-10
68 LLM:量化部署系列:(3)用"躺平"和"用力过猛"理解量化路由 2026-05-11
69 LLM:零样本检索、差异化路由与多模态增益的边界 2026-05-17

当大多数人还在用长 prompt 堆砌大模型能力、为上下文溢出和不可复用的指令头疼时,Anthropic 在 2026 年初推出的 Claude Skill 体系,走出了一条与众不同的路。它既不是 OpenAI 式的插件生态,也不是传统的微调方案,而是一套完整的、面向 AI 的软件工程范式。

Claude Skill 的本质,是面向大模型的"知识函数包"。它借鉴了过去 50 年软件工程积累的模块化、可复用、标准化、可测试的最佳实践,让开发者可以用写 Python 函数的思维,快速构建可靠、可协作、可维护的 AI 能力。这不是对传统软件开发的颠覆,而是软件工程思想在 AI 时代的自然延伸。

一、Skill 作为"知识函数包"的核心逻辑

如果你是一名软件开发者,你会对 Claude Skill 的开发逻辑感到无比熟悉——它很大程度上借鉴了 Python/R 软件包的整套体系,将其迁移到了大模型领域。

对齐软件工程的结构设计

一个标准的 Claude Skill 拥有与现代 Python 包大致对应的目录结构,包含元数据声明、核心知识与指令、工具调用定义、测试用例、使用示例几个部分。这种标准化的结构带来了三个核心优势:

  • 可协作性:团队成员可以像协作开发代码一样协作开发 Skill,用 Git 进行版本控制,用 PR 进行代码审查
  • 可维护性:知识被模块化拆分,修改某一条规则不需要动整个长 prompt
  • 可分发性:可以像发布 Python 包一样发布 Skill,其他人只需一行指令即可导入使用

与传统代码的无缝集成

Skill 最被低估的能力,是它能够直接复用你现有的多数代码资产。你不需要把过去写的 Python/R 脚本重写成自然语言指令,只需要在 Skill 的 tools 目录中声明这些脚本的接口,Claude 就可以像调用本地函数一样调用它们。这意味着你过去积累的多数自动化脚本,都可以低成本升级为 AI 驱动的工作流。

二、Skill 与传统代码包的核心区别:三级渐进式加载机制

虽然 Skill 借鉴了软件包的思想,但它解决了传统代码无法解决的一个核心问题:如何在有限的上下文窗口中,高效地加载和使用大量知识。这就是 Anthropic 独创的三级渐进式加载机制。

传统的 prompt 工程多采用"全量加载"模式:无论你需要用到多少知识,往往需要把所有规则、规范、流程一次性写在 prompt 里。这导致很多企业级 prompt 动辄几千甚至上万 token,每次调用都要支付高昂的成本,而且容易出现上下文溢出和模型遗忘的问题。

而 Claude Skill 采用按需加载的三级架构:

  1. 第一级:元数据与摘要加载(~50 token):模型首先只加载元数据和摘要文档,了解这个 Skill 的功能、输入输出参数和适用场景。这一步的目的是让模型判断"是否需要调用这个 Skill",避免不必要的 token 消耗。
  2. 第二级:核心指令加载(~300-500 token):如果模型判断需要调用该 Skill,再加载核心指令文档,包含主要的工作流程和核心规则。这是 Skill 的主体部分,定义了完成任务的基本步骤。
  3. 第三级:细节按需加载(~100-200 token / 次):只有在执行到特定步骤时,模型才会主动加载对应的细节文档。例如,一个"财务报表生成"Skill,只有在处理资产负债表时,才会加载资产负债表的格式规范;只有在遇到异常数据时,才会加载错误处理流程。

根据 Anthropic 官方技术报告的数据,这种三级加载机制大致可将平均每次调用的 token 消耗降低 70%-85%,同时显著提升模型的响应速度和准确性。更重要的是,它突破了上下文窗口的物理限制——一个 Skill 可以包含数万甚至数十万 token 的知识,而每次调用只需要加载其中很小的一部分。

三、Skill 的核心定位:解决重复两次以上的标准化工作流

关于 Claude Skill,最常见的误解是认为它是用来提升大模型的创意能力的。但实际上,Anthropic 从一开始就明确了 Skill 的核心定位:它是为了解决那些至少重复两次以上的标准化工作流而设计的。

这是一个非常重要的边界。Skill 不擅长写一篇独特的营销文案、设计一个创新的产品功能或者进行一次开放式的头脑风暴——这些一次性的创意任务,仍然需要人类和大模型直接协作。但对于那些每个人都要重复做、容易出错、浪费大量时间的标准化工作,Skill 有着无可比拟的优势。

典型的适用场景包括:

  • 数据类工作流:每日自动从多个数据库拉取数据,生成标准化的业务日报,自动标注异常值并生成预警
  • 文档类工作流:根据会议录音自动生成结构化的会议纪要,分配行动项并跟踪进度;自动汇总 Jira 任务生成迭代周报
  • 项目类工作流:根据需求自动生成项目初始化模板,包含目录结构、配置文件、CI/CD 流水线和 README 文档
  • 客服类工作流:自动处理常见的用户咨询和退款申请,核对订单信息,生成标准化回复,只有复杂问题才转人工
  • 合规类工作流:自动审核合同条款,识别风险点,生成合规报告;自动检查代码是否符合团队的编码规范

Anthropic 内部的使用数据显示,通过将这些重复性工作自动化,团队成员的工作效率平均提升了 62%,同时错误率降低了 89%。更重要的是,它让员工从繁琐的机械劳动中解放出来,专注于更有创造性的工作。

四、Skill 如何解决当前大模型定制化的三大痛点

在 Skill 出现之前,企业定制大模型主要有三种方式:prompt 工程、微调、插件。但这三种方式都存在难以解决的痛点:

  • Prompt 工程:简单快速、成本低,但不可复用、难以协作,prompt 过长会导致上下文溢出,容易被篡改
  • 微调:能力稳定、响应速度快,但成本高、周期长,需要大量高质量数据,难以更新,无法嵌入实时信息
  • 插件:可以调用外部系统,但只能做简单的 API 调用,无法嵌入复杂的行业知识和团队规范,开发门槛高

Claude Skill 较好地解决了这三个痛点:

  • 相对于 prompt 工程:Skill 是模块化、可复用、可版本控制的。你不需要把所有规则都复制粘贴到每个对话里,只需要导入对应的 Skill 即可。团队可以建立统一的 Skill 仓库,所有人都使用相同的标准和规范。
  • 相对于微调:Skill 不需要任何训练数据,不需要 GPU,只需要写自然语言指令。修改一个 Skill 只需要几分钟,而微调一个模型可能需要几天甚至几周。Skill 还可以嵌入实时更新的知识,而微调的模型知识是固化的。
  • 相对于插件:Skill 不仅可以调用外部工具,还可以嵌入复杂的行业知识、团队规范和最佳实践。例如,一个"医疗记录整理"Skill,可以包含整个医院的病历书写规范、ICD 编码规则和隐私保护政策,这是插件无法做到的。

五、实战:10 分钟构建一个"周报生成"Skill

为了让你更直观地理解 Skill 的开发流程,我们来快速构建一个最简单但也最实用的"周报生成"Skill。

首先创建标准化的目录结构,然后编写元数据、摘要、核心指令,最后上传到 Anthropic Console 测试即可。使用时只需一行指令:

@weekly-report-generator 员工姓名:张三,周次:20,Jira迭代ID:SPRINT-123

几秒钟后就能得到一份格式规范、内容准确的周报。团队成员可以共享使用,无需再花几个小时复制粘贴 Jira 任务。

六、结语:AI 开发的未来是软件工程

很多人认为,大模型的出现会让传统的软件工程变得过时。但 Claude Skill 告诉我们,事实恰恰相反:大模型越强大,我们就越需要软件工程。

过去几年,我们见证了 prompt 工程的兴起和衰落。人们从最初的兴奋,逐渐意识到零散的、不可复用的 prompt 无法构建可靠的企业级应用。我们需要的不是更多的 prompt 技巧,而是一套完整的、经过验证的工程方法论,来管理大模型的知识和能力。

Claude Skill 的真正价值,在于它把软件工程的思想引入了 AI 开发领域。它向我们传递,构建 AI 应用和构建传统软件应用并没有本质的区别——我们仍然需要模块化、可复用、可测试、可维护的知识。未来的 AI 开发,不会是每个人都在写零散的 prompt,而是像今天的软件开发一样,有丰富的开源 Skill 包,有企业内部的私有 Skill 仓库,有完整的开发、测试、分发和运维流程。

开发者无需重新发明轮子,只需像导入函数一样导入 Skill,然后专注于构建真正有价值的业务逻辑。这才是 AI 生产力革命真正开启的地方。

相关阅读

参考文献

Anthropic. (2026, January). The complete guide to building skills for Claude [Technical report]. Anthropic.

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断:研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 "LLMRL:'s Razor 抗遗忘(2) 2025-09-04
21 "LLMRL:'s Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
22 LLM:RL's Razor 抗遗忘 2025-09-04
23 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
24 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
48 LLM:SimRL(3)质量评估与落地优化 2026-02-03
49 LLM:MCP vs Skills vs Subagent 核心差异与选型指南 2026-03-22
50 LLM:OpenClaw 消息渠道配置实践 2026-03-22
51 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
52 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
53 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
54 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
55 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
56 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
57 LLM:Harness Engineering——代码智能体入门:核心概念与三大关键组件 2026-04-05
58 LLM:OpenClaw 一个月观察 2026-04-07
59 LLM:量化部署系列:(1)多模态模型规模误区与分工协作架构解析 2026-04-07
60 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
61 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
62 LLM:Harness Engineering——Agent系统的信息筛选机制 2026-04-15
63 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15
64 LLM:强化学习风控(1)RLVP框架与专家稠密奖励 2026-04-18
65 LLM:生产级 Agent 工程范式:从 Claude Code 看模型与基础设施的边界 2026-04-22
66 LLM:Harness Engineering——大模型Agent工程迭代 2026-05-03
67 LLM:量化部署系列:(2)动态精度路由与低精度正则化的工程实践 2026-05-10
68 LLM:量化部署系列:(3)用"躺平"和"用力过猛"理解量化路由 2026-05-11
69 LLM:零样本检索、差异化路由与多模态增益的边界 2026-05-17