1 min read

LLM:人机协作

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:分层管理风险定性 2024-08-08
4 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
5 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
8 LLM:推理不可复现的探索 2025-06-11
9 LLM:SFT 与 RL 的关系 2025-07-29
10 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
11 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
12 LLM:低数据场景的决策树生成 2025-08-03
13 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
14 LLM:表格数据特征工程 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

以人类定方向、大模型做执行为核心的人机协史,生成式大语言模型(LLM)正在重塑内容创作的底层逻辑。这一转变是有明确的学术研究支撑,同时也在日常协作场景中得到验证,其核心是基于比较优势的人机分工,以及人类角色从“生产者”到“决策者”的转型。

Korinek(2023)在研究中明确指出,生成AI系统在内容生成方面具备越来越显著的比较优势,而人类的比较优势则集中在内容评估、区分以及研究项目的组织协调上。这一结论为日常的AI协作写作提供了学术层面的依据。LLM的训练过程分为三个核心步骤,首先是预训练,模型基于大规模文本语料学习预测下一个单词,以此掌握句法结构、词汇关系、上下文逻辑和文本含义;其次是指令微调,通过大量指令响应案例让模型更好地理解并遵循人类需求;最后是基于人类反馈的强化学习,依靠人类评估者的反馈优化模型输出,使其更贴合人类偏好。

需要注意的是,LLM的输出存在可重复性限制。一方面,即便将生成温度设置为0,模型输出仍会保留少量变异性,在多句子的长文本响应中,这种限制表现得更为明显;另一方面,模型迭代速度较快,旧版本模型通常会在新版本推出3个月后被弃用,这也导致基于特定旧模型的研究结果可能无法复现。

在应用层面,Korinek(2023)将LLM的使用场景划分为六个领域,包含构思和反馈、写作、背景研究、编码、数据分析和数学推导,共提供27个具体用例。其中一个典型案例是,LLM能够将零散的要点整合为符合特定风格的文本。例如,用学术经济学家的文风,将“LLM自动化认知任务”“经济学家工作以认知为主”等多个要点,整合为一段逻辑连贯、包含主题句和具体解决方案的段落。

这一学术结论,与实践中总结的AI协作写作五步流程形成高度契合。五步流程的核心是,人类负责记录原始想法、口述传递想法、评估修正内容和终稿编辑,LLM则负责将混乱的口述内容整理为结构化的可讨论文本。这一分工模式,正是对人类评估、LLM生成比较优势的落地应用。

在这一协作模式的讨论中,还衍生出老板思维的认知转型观点。该观点认为,AI时代的人类需要从亲自执行内容生产的员工思维,转变为定方向、审核的老板思维。这与Korinek(2023)提出的人类角色定位一致,研究指出,中期内基于LLM的助手和导师会愈发实用,能够生成研究论文相关内容,而人类研究者则需要聚焦自身优势,包括提出问题、引导研究方向、筛选有用内容、编辑文本并提供反馈,同时承担组织研究工作的职责,类似于研究经理的角色,课题组长的价值将更多体现在审批LLM生成的输出上,而非直接参与内容开发。

围绕这一协作模式,还存在关于AI辅助作品原创性的争议。有观点以导师修改学生文稿为例,指出只要核心想法由人类提出,LLM仅承担表达打磨的角色,作品的核心归属权就应属于人类。这一观点也能在学术研究中找到支撑,因为LLM的生成始终基于人类设定的框架和需求,人类掌握着内容的核心方向和质量把控权。

此外,Korinek(2023)还提出了数字鸿沟的相关警示,随着LLM助手和导师的发展,无法接触或不善于利用LLM的人群,可能会在效率和产出上被拉开差距。这也从侧面强调了掌握人机协作模式的必要性,其本质不是让人类被工具替代,而是让工具成为人类放大自身能力的杠杆。

参考文献

Korinek, A. (2023). Generative AI for Economic Research: Use Cases and Implications. Journal of Economic Literature.

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:分层管理风险定性 2024-08-08
4 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
5 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
8 LLM:推理不可复现的探索 2025-06-11
9 LLM:SFT 与 RL 的关系 2025-07-29
10 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
11 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
12 LLM:低数据场景的决策树生成 2025-08-03
13 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
14 LLM:表格数据特征工程 2025-08-03
15 LLM:撰写大模型落地提示词的关键 2025-08-27
16 LLM:从 Prompt 设计到工作流落地 2025-08-28
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03