1 min read

LLM:OpenClaw 一个月观察

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLMRL's Razor 抗遗忘(2) 2025-09-04
24 LLMRL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
48 LLM:SimRL(3)质量评估与落地优化 2026-02-03
49 LLM:MCP vs Skills 核心差异 2026-03-22
50 LLM:OpenClaw 消息渠道配置实践 2026-03-22
51 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
52 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
53 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
54 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
55 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
56 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
57 LLM:代码智能体入门核心概念界定与三大关键组件详解 2026-04-05
58 LLM:多模态模型规模误区与分工协作架构解析 2026-04-07
59 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
60 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
61 LLM:Harness:Agent系统的信息筛选机制 2026-04-15
62 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15
63 LLM:强化学习风控(1)RLVP框架与专家稠密奖励 2026-04-18
64 LLM:生产级 Agent 工程范式:从 Claude Code 看模型与基础设施的边界 2026-04-22

使用 OpenClaw(中文社区称之为"龙虾")约一个月,写一篇务实的使用分享。不是功能测评,而是想回答一个核心问题:它的价值到底在哪里,边界又在哪里

一、核心能力:把「手动」大幅减少了

先说值得肯定的部分。龙虾真正发挥作用的地方,是那些明确、可重复、有固定套路的任务。

常见的典型场景:

  • 文档整理:博客旧文归类、批量修改标题格式
  • 定时提醒:待办事项到期通知,无需打开任何 App
  • 内容发布:文章写好后,在聊天框直接触发构建、提交、推送流程
  • 代码执行:描述需求,AI 生成代码,工具执行,人只验收结果

本质上,它把「想到→操作」的距离大幅缩短了。以前需要打开浏览器、点菜单、切窗口的操作,现在变成「一句话」。对于频繁处理信息、频繁执行固定流程的人,这是真实的时间节省。

(关于龙虾的底层架构设计,可参考此前的文章《LLM:OpenClaw 检索架构的工程实现与设计逻辑》。)

二、具体使用场景

基于实际日常使用,以下场景是龙虾发挥明显价值的场合。

博客管理:这是今天用得最多的场景。从想法到发布上线,整个流程可以自动化:说出想法,AI写成草稿;检查逻辑,修改细节;然后一句命令完成 Hugo 构建、Git 提交、推送到 GitHub。以前需要在编辑器、终端、GitHub 网页之间来回切换,现在变成连续的对话。

内容整合:把豆包的讨论转成博客章节——AI 会分析新内容和已有博客的相似度,判断该新建还是该增强,给出整合方案,然后直接执行修改。这个能力的前提是 AI 能读取博客结构,理解内容关联。

网络内容处理:抓取网页内容、提取关键信息、自动填表。适合把散落在各处的内容统一收集整理。

信息整理:分析长对话,提炼核心观点;判断内容相似度,给出整合建议;把零散的想法归纳成结构化内容。

三、记忆机制:塞满才清理 vs 边记边筛

用了一段时间后发现,龙虾和 Claude Code 在记忆策略上有明显差异,这直接影响了长会话的体验。

龙虾的做法是:上下文接近 20K Token 时统一做一次摘要压缩。这相当于把一堆东西先堆着,满了再一起整理。好处是简单直接,坏处是如果中间过程复杂(比如 Debug 场景),容易漏掉关键信息。

Claude Code 的做法更渐进:边对话边筛选,只存关键路径,不存冗余日志。这样上下文始终保持"精简但够用"的状态。

实际感受是:长 Debug 会话时,Claude Code 的状态恢复能力明显更强。这不是模型能力差距,是工程策略选择不同。

四、Skill 的本质:非严格状态机

龙虾的 Skill 机制,初看像是"高级 Prompt",用久了才发现更像是人工写死的步骤流程

大模型本身的状态管理是模糊的,长链路任务容易乱。Skill 的作用就是把中间步骤代码化,减少模型自由推理的空间。比如一个复杂的数据处理流程,最好人工把每一步的输入输出定义清楚,让模型按步骤执行,而不是让它自己决定"接下来该做什么"。

这也意味着:长任务、交叉性任务,目前还不能完全交给模型自主完成,必须有人工干预和步骤固化。

五、局限:不是工具的问题,是场景的问题

龙虾并非装上就能用起来的东西。这里有几个关键限制:

没有具体可落地的事,就只能体验,无法发挥实际作用。 这是效率工具的共同特点:工具越强大,用它的前提是工作里有足够多「值得被自动化」的事。如果日常主要是「看消息→回消息→开会」,没有什么可重复的流程,工具能提供的帮助就会相当有限。

Subagent 并行是伪优化。 试过同时开多个子任务(比如 3-5 个并行),结果往往是冲突、降智、幻觉、指令跑偏。目前可行的做法还是串行:一个任务完成再开下一个。并行提速在龙虾上暂时还不成熟。

可控性比能力更重要。 龙虾的权限很大,能读写数据、发消息、执行代码。这也意味着风险:如果没有沙盒机制隔离,可能出现数据泄露、代码注入、甚至训练数据被篡改导致模型过拟合。生产环境使用,必须有硬隔离——比如训练模块和评价模块物理分开,评价端只读不写。

Token 消耗与成本管理:按需构建 vs 全量构建。 使用龙虾管理博客时,一个容易忽视的问题是 Token 消耗与成本。以 Hugo 静态博客为例,早期每次修改都执行 hugogit commitgit push 的完整流程,但 Hugo 全量构建会处理 1300+ 文件,产生大量不必要的 Token 消耗。

优化后的工作流:

  • 小修改(1-2个文件):git commitgit push,Netlify 自动检测并部署,无需本地构建
  • 新建博客:hugogit commitgit push,需要生成本地预览和 public 目录
  • 大量修改:hugogit commitgit push,确保本地验证通过再推送

核心原则是区分"本地验证必要"和"远程自动部署足够"的场景。Netlify 的自动构建能力可以承接大部分部署工作,不需要每次都在本地跑完整构建流程。这个优化点本质上是增量思维——只做必要的操作,让自动化工具承担重复工作。

费用成本控制:积分消耗与套餐选择。 龙虾的多轮自动调用特性导致积分消耗极快,成本控制成为高频使用时必须考虑的问题。以个人的实际使用为例:先开通扣子个人高级版连续包月(49元/月),用掉套餐内赠送的积分后,升级为个人旗舰版连续包月(99元/月),但该套餐自带的约10万积分也很快被消耗完毕。为支撑龙虾的高频调用,又额外充值了100元(约10万积分),单月在龙虾相关的积分消耗总成本接近250元。

后续优化方向包括:切换省流版模型、设置积分上限以避免超额消耗、优化指令以减少不必要的轮次调用。成本控制的前提是清晰区分"必须用龙虾"和"可用其他工具"的场景,避免为简单任务付出过高成本。

六、最大价值:把定性争吵变成定量实验

一个月用下来,最惊喜的发现是:龙虾真正改变的不是"效率",而是决策方式

以前做模型迭代,往往是开会讨论、凭经验拍脑袋、互相说服。现在可以用龙虾快速跑多变量对照实验:换一组特征、换一个 Y 标签、换一个数据集,几小时出结果,直接证伪或证实。

争论变成了实验。这是从"我觉得"到"数据说"的转变,终结了很多无意义的内耗。

七、现实定位:提效 80% 可行,完全替代不可行

当前阶段,龙虾更适合作为放大器而非替代者

低风险、高重复性的任务(文档整理、定时任务、批量发布),它可以自主完成。但高风险场景(风控、安全、金融决策),无人化意味着责任悬空,出问题找不到人负责,这在生产环境无法落地。

正确定位是:人做决策与验收,AI 做执行与重复劳动。提效 80% 是现实的,完全替代人是不可行的。

八、对话式创作的底层逻辑

龙虾这类工具在写作场景中还有一个重要价值:对话式创作。这里的关键不是让AI替你写,而是让AI帮你思考。

保持思考的独立性

作者主导的多轮对话能避免一个问题:顺着AI的逻辑往下挖,越挖越窄。真正有效的做法是不断提出新的问题、新的案例、新的视角,把对话从AI给出的方向上拉回来。语音交互类产品的好处是把这种追问的门槛降下来了——不用字斟句酌写指令,随口就能打断、跳转、提出质疑。

让AI说真话

有一个常见的场景:问AI"我这个想法对不对"。这时候AI很容易顺着你说,哪怕想法有问题也不会直接否定。更有效的方式是用对话、追问、站在第三方角度来讨论——不是让AI帮你论证你的观点对不对,而是让AI分析这个观点本身有什么问题。把AI从"顺着用户说话"的状态拉回到"认真分析问题"的状态,输出的内容会更真实、更有价值。

人机各展所长

AI能帮你做的是把碎片化的想法整理成系统,把信息补充完整,把逻辑梳理清楚——这部分工作量很大,但不需要太多判断力。而需要判断力的是你:定方向、提问题、判断输出对不对、把最终的内容注入自己的洞察。这是AI做不到的,也是文章真正有灵魂的地方。

AI不会让不自由的人变自由,但会让自由的人变得更自由。对写作而言,AI从来不是用来替代写作者的,而是用来解放写作者的。

写在最后

一个月使用下来,龙虾最准确的角色描述应该是:放大器,而非替代者。更准确地说,它是一个自然语言驱动的个人操作系统——有具体可自动化的任务,它帮人跑得更快;没有明确的使用场景,它只是一个对话界面。

它不是工具,是交互入口加权限中枢。用不起来的原因,往往是只把它当聊天机器人,没当操作系统用。

想清楚要用它做什么,再决定要不要投入时间。这是一点观察后的建议。

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:FN分层分析与提升空间测算(1) 2024-09-12
6 LLM:FN分层分析与提升空间测算(2) 2024-09-12
7 LLM:FN分层分析与提升空间测算(3) 2024-09-12
8 LLM:FN分层分析与提升空间测算(4) 2024-09-12
9 LLM:FN分层分析与提升空间测算(5) 2024-09-12
10 LLM:推理不可复现的探索 2025-06-11
11 LLM:SFT 与 RL 的关系 2025-07-29
12 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
13 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
14 LLM:表格数据特征工程(1)核心方法与框架 2025-08-03
15 LLM:表格数据特征工程(2)低数据场景的决策树生成 2025-08-03
16 LLM:表格数据特征工程(3)落地冷启动 2025-08-03
17 LLM:表格数据特征工程(4)线性可分性与模型选型 2025-08-03
18 LLM:撰写大模型落地提示词的关键 2025-08-27
19 LLM:从 Prompt 设计到工作流落地 2025-08-28
20 LLM:RL's Razor 抗遗忘 2025-09-04
21 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
22 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
23 LLMRL's Razor 抗遗忘(2) 2025-09-04
24 LLMRL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
25 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
26 LLM:幻觉成因与解决 2025-09-08
27 LLM:Agent 逻辑与应用场景 2025-09-23
28 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
29 LLM:近似on-policy数据抗遗忘 2025-10-21
30 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
31 LLM:幻觉治理 2025-10-28
32 LLM:先验偏见(1)变量名带偏判断 2025-11-13
33 LLM:先验偏见(2)分层分析应对 2025-11-13
34 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
35 LLM:分层落地 2025-11-13
36 LLM:零样本在金融场景落地 2025-11-13
37 LLM:跨难度泛化的局限与量化 2025-11-26
38 LLM:重复提示词解锁非推理性能上限 2025-12-17
39 LLM:用失败样本提升指令遵循能力 2025-12-29
40 LLM:概率引导的高价值信号筛选 2026-01-14
41 LLM:低成本安全检测的级联方案 2026-01-16
42 LLM:定性编码的假阳性解决方案 2026-01-16
43 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
44 LLM:先验偏见(5)工程化方案 2026-01-22
45 LLM:先验偏见(6)递进式优化与工程化落地 2026-01-22
46 LLM:SimRL(1)分层评估 2026-02-03
47 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03
48 LLM:SimRL(3)质量评估与落地优化 2026-02-03
49 LLM:MCP vs Skills 核心差异 2026-03-22
50 LLM:OpenClaw 消息渠道配置实践 2026-03-22
51 LLM:OpenClaw 检索架构的工程实现与设计逻辑 2026-03-24
52 LLM:OpenClaw 的Memory原生架构与Agent发展方向 2026-03-24
53 LLM:Coze云端开发环境初始化与504超时问题排查 2026-03-28
54 LLM:OpenClaw 微信 ClawBot 插件配置指南 2026-03-28
55 LLM:OpenClaw 记忆系统:三级架构的正确理解 2026-03-28
56 LLM:Agent Skill与状态管控的工程化定论 2026-04-03
57 LLM:代码智能体入门核心概念界定与三大关键组件详解 2026-04-05
58 LLM:多模态模型规模误区与分工协作架构解析 2026-04-07
59 LLM:Claude Code 和 OpenClaw 的长会话差距 2026-04-08
60 LLM:Harness Engineering:AI Agent 的外循环工程体系 2026-04-12
61 LLM:Harness:Agent系统的信息筛选机制 2026-04-15
62 LLM:OpenClaw Heartbeat:让Agent拥有定时任务能力 2026-04-15
63 LLM:强化学习风控(1)RLVP框架与专家稠密奖励 2026-04-18
64 LLM:生产级 Agent 工程范式:从 Claude Code 看模型与基础设施的边界 2026-04-22