2 min read

LLM：Claude Skill：Anthropic 用软件工程思想重构 AI 开发

2026/05/19

当大多数人还在用长 prompt 堆砌大模型能力、为上下文溢出和不可复用的指令头疼时，Anthropic 在 2026 年初推出的 Claude Skill 体系，走出了一条与众不同的路。它既不是 OpenAI 式的插件生态，也不是传统的微调方案，而是一套完整的、面向 AI 的软件工程范式。

Claude Skill 的本质，是面向大模型的"知识函数包"。它借鉴了过去 50 年软件工程积累的模块化、可复用、标准化、可测试的最佳实践，让开发者可以用写 Python 函数的思维，快速构建可靠、可协作、可维护的 AI 能力。这不是对传统软件开发的颠覆，而是软件工程思想在 AI 时代的自然延伸。

一、Skill 作为"知识函数包"的核心逻辑

如果你是一名软件开发者，你会对 Claude Skill 的开发逻辑感到无比熟悉——它很大程度上借鉴了 Python/R 软件包的整套体系，将其迁移到了大模型领域。

对齐软件工程的结构设计

一个标准的 Claude Skill 拥有与现代 Python 包大致对应的目录结构，包含元数据声明、核心知识与指令、工具调用定义、测试用例、使用示例几个部分。这种标准化的结构带来了三个核心优势：

可协作性：团队成员可以像协作开发代码一样协作开发 Skill，用 Git 进行版本控制，用 PR 进行代码审查
可维护性：知识被模块化拆分，修改某一条规则不需要动整个长 prompt
可分发性：可以像发布 Python 包一样发布 Skill，其他人只需一行指令即可导入使用

与传统代码的无缝集成

Skill 最被低估的能力，是它能够直接复用你现有的多数代码资产。你不需要把过去写的 Python/R 脚本重写成自然语言指令，只需要在 Skill 的 tools 目录中声明这些脚本的接口，Claude 就可以像调用本地函数一样调用它们。这意味着你过去积累的多数自动化脚本，都可以低成本升级为 AI 驱动的工作流。

二、Skill 与传统代码包的核心区别：三级渐进式加载机制

虽然 Skill 借鉴了软件包的思想，但它解决了传统代码无法解决的一个核心问题：如何在有限的上下文窗口中，高效地加载和使用大量知识。这就是 Anthropic 独创的三级渐进式加载机制。

传统的 prompt 工程多采用"全量加载"模式：无论你需要用到多少知识，往往需要把所有规则、规范、流程一次性写在 prompt 里。这导致很多企业级 prompt 动辄几千甚至上万 token，每次调用都要支付高昂的成本，而且容易出现上下文溢出和模型遗忘的问题。

而 Claude Skill 采用按需加载的三级架构：

第一级：元数据与摘要加载（~50 token）：模型首先只加载元数据和摘要文档，了解这个 Skill 的功能、输入输出参数和适用场景。这一步的目的是让模型判断"是否需要调用这个 Skill"，避免不必要的 token 消耗。
第二级：核心指令加载（~300-500 token）：如果模型判断需要调用该 Skill，再加载核心指令文档，包含主要的工作流程和核心规则。这是 Skill 的主体部分，定义了完成任务的基本步骤。
第三级：细节按需加载（~100-200 token / 次）：只有在执行到特定步骤时，模型才会主动加载对应的细节文档。例如，一个"财务报表生成"Skill，只有在处理资产负债表时，才会加载资产负债表的格式规范；只有在遇到异常数据时，才会加载错误处理流程。

根据 Anthropic 官方技术报告的数据，这种三级加载机制大致可将平均每次调用的 token 消耗降低 70%-85%，同时显著提升模型的响应速度和准确性。更重要的是，它突破了上下文窗口的物理限制——一个 Skill 可以包含数万甚至数十万 token 的知识，而每次调用只需要加载其中很小的一部分。

三、写作层面：SKILL.md 的轻量化原则与 references/ 拆分规范

三级加载机制的架构原理固然重要，但在实际开发中，大多数人最容易踩的坑反而在写作层面——我们往往把 Skill 当成说明书来写，却忘了它的最终读者不是人，而是模型。

最大的误区：把几千行规则塞进 SKILL.md 正文

最常见的做法是：把团队积累的所有规范、流程、代码模板全部塞进 SKILL.md 正文，认为"写得多=写得好"。这个做法带来的问题远比想象的多：

Token 浪费：每次调用都要把这些内容全部加载，消耗大量 token 成本。
注意力稀释：在海量规则中，模型真正的核心执行逻辑反而被淹没，准确率下降。
维护困难：长文档改一处牵动全局，版本管理混乱。

正确做法：Progressive Disclosure（渐进式披露）

借鉴三级加载机制的思路，SKILL.md 的写作应严格遵循 Progressive Disclosure 原则：

SKILL.md 保持轻量化：只放最核心的工作流（约 300-500 token），包含任务的判断逻辑、主要执行步骤、关键边界条件。模型读完这部分就应该知道"这个 Skill 是做什么的、什么时候用、第一步做什么"。
references/ 目录存放弹药库：将庞大的规范文档、代码模板、背景知识拆解至 references/ 子目录，按主题命名（如 references/checklist.md、references/templates.md）。模型在执行到特定步骤时再按需加载对应文档。

这就像给模型配备了一个"按需调用的弹药库"，而非让它背着沉重的背包前行。带来的实际效果是：平均每次调用的 token 消耗降低 50%-80%，同时核心指令的响应准确性显著提升。

实操判断标准：问自己三个问题

写完一个 SKILL.md 后，可以对照检查：

第一遍扫读：模型能在 30 秒内判断"这个 Skill 适合什么任务"吗？如果不能，说明摘要和元数据不够清晰。
核心指令长度：SKILL.md 正文是否控制在了 300-500 token？如果超过了，就应该把细节拆分出去。
按需加载验证：references/ 目录里的文档是否做到了"单文件单主题"？模型能否在不读任何 reference 的情况下完成基本流程？

四、Skill 的核心定位：解决重复两次以上的标准化工作流

关于 Claude Skill，最常见的误解是认为它是用来提升大模型的创意能力的。但实际上，Anthropic 从一开始就明确了 Skill 的核心定位：它是为了解决那些至少重复两次以上的标准化工作流而设计的。

这是一个非常重要的边界。Skill 不擅长写一篇独特的营销文案、设计一个创新的产品功能或者进行一次开放式的头脑风暴——这些一次性的创意任务，仍然需要人类和大模型直接协作。但对于那些每个人都要重复做、容易出错、浪费大量时间的标准化工作，Skill 有着无可比拟的优势。

典型的适用场景包括：

数据类工作流：每日自动从多个数据库拉取数据，生成标准化的业务日报，自动标注异常值并生成预警
文档类工作流：根据会议录音自动生成结构化的会议纪要，分配行动项并跟踪进度；自动汇总 Jira 任务生成迭代周报
项目类工作流：根据需求自动生成项目初始化模板，包含目录结构、配置文件、CI/CD 流水线和 README 文档
客服类工作流：自动处理常见的用户咨询和退款申请，核对订单信息，生成标准化回复，只有复杂问题才转人工
合规类工作流：自动审核合同条款，识别风险点，生成合规报告；自动检查代码是否符合团队的编码规范

Anthropic 内部的使用数据显示，通过将这些重复性工作自动化，团队成员的工作效率平均提升了 62%，同时错误率降低了 89%。更重要的是，它让员工从繁琐的机械劳动中解放出来，专注于更有创造性的工作。

五、Skill 如何解决当前大模型定制化的三大痛点

在 Skill 出现之前，企业定制大模型主要有三种方式：prompt 工程、微调、插件。但这三种方式都存在难以解决的痛点：

Prompt 工程：简单快速、成本低，但不可复用、难以协作，prompt 过长会导致上下文溢出，容易被篡改
微调：能力稳定、响应速度快，但成本高、周期长，需要大量高质量数据，难以更新，无法嵌入实时信息
插件：可以调用外部系统，但只能做简单的 API 调用，无法嵌入复杂的行业知识和团队规范，开发门槛高

Claude Skill 较好地解决了这三个痛点：

相对于 prompt 工程：Skill 是模块化、可复用、可版本控制的。你不需要把所有规则都复制粘贴到每个对话里，只需要导入对应的 Skill 即可。团队可以建立统一的 Skill 仓库，所有人都使用相同的标准和规范。
相对于微调：Skill 不需要任何训练数据，不需要 GPU，只需要写自然语言指令。修改一个 Skill 只需要几分钟，而微调一个模型可能需要几天甚至几周。Skill 还可以嵌入实时更新的知识，而微调的模型知识是固化的。
相对于插件：Skill 不仅可以调用外部工具，还可以嵌入复杂的行业知识、团队规范和最佳实践。例如，一个"医疗记录整理"Skill，可以包含整个医院的病历书写规范、ICD 编码规则和隐私保护政策，这是插件无法做到的。

六、实战：10 分钟构建一个"周报生成"Skill

为了让你更直观地理解 Skill 的开发流程，我们来快速构建一个最简单但也最实用的"周报生成"Skill。

首先创建标准化的目录结构，然后编写元数据、摘要、核心指令，最后上传到 Anthropic Console 测试即可。使用时只需一行指令：

@weekly-report-generator 员工姓名：张三，周次：20，Jira迭代ID：SPRINT-123

几秒钟后就能得到一份格式规范、内容准确的周报。团队成员可以共享使用，无需再花几个小时复制粘贴 Jira 任务。

七、结语：AI 开发的未来是软件工程

很多人认为，大模型的出现会让传统的软件工程变得过时。但 Claude Skill 告诉我们，事实恰恰相反：大模型越强大，我们就越需要软件工程。

过去几年，我们见证了 prompt 工程的兴起和衰落。人们从最初的兴奋，逐渐意识到零散的、不可复用的 prompt 无法构建可靠的企业级应用。我们需要的不是更多的 prompt 技巧，而是一套完整的、经过验证的工程方法论，来管理大模型的知识和能力。

Claude Skill 的真正价值，在于它把软件工程的思想引入了 AI 开发领域。它向我们传递，构建 AI 应用和构建传统软件应用并没有本质的区别——我们仍然需要模块化、可复用、可测试、可维护的知识。未来的 AI 开发，不会是每个人都在写零散的 prompt，而是像今天的软件开发一样，有丰富的开源 Skill 包，有企业内部的私有 Skill 仓库，有完整的开发、测试、分发和运维流程。

开发者无需重新发明轮子，只需像导入函数一样导入 Skill，然后专注于构建真正有价值的业务逻辑。这才是 AI 生产力革命真正开启的地方。

参考文献

Anthropic. (2026, January). The complete guide to building skills for Claude [Technical report]. Anthropic.