1 min read

LLM:从 Prompt 设计到工作流落地

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03

本文将探讨大语言模型的 Prompt 设计、单 / 多 Prompt 选择,以及落地关键的 “工作流” 架构,并结合高频问题,拆解从 Prompt 到工作流的实操步骤。

一、先搞懂 Prompt:落地的 “第一块砖”

在使用 Prompt 时,很多人纠结选择单 Prompt 还是多 Prompt,其实关键在于先明确应用场景:

  • 处理 “标准化、多维度” 任务,如提取征信报告中的负债、融担、多头借贷等指标,适合采用多 Prompt 拆分策略。具体可通过 3 个独立 Prompt 分别提取 3 个指标,再用 1 个 Prompt 整合结果。这种方式可避免指令冲突,确保每个指标提取的准确性。

  • 对于 “模糊化、需综合判断” 的决策,例如评估 “用户是否适合大额信贷”,建议使用单 Prompt。因为还款能力、消费习惯、负债结构等评估要素相互关联,单 Prompt 能让模型进行交叉分析,若拆分反而会破坏整体逻辑。

此外,输入格式对 Prompt 效果影响显著。若原始数据为表格或 PDF,需先将其转换为模型可识别的文字形式。例如,将征信表格中的 “贷款机构、金额、期限” 等信息整理为短句,否则信息格式混乱会导致模型输出偏差。

二、工作流:让大模型 “可管、可查” 的关键

当使用大模型处理信贷风控、用户画像等复杂任务时,单一 Prompt 无法满足需求,工作流便成为落地的核心架构。以下 3 个实操建议:

  1. 按业务逻辑划分节点

    避免按 “数据处理→模型调用→结果输出” 的技术逻辑拆分。以用户信贷评估为例,可拆解为 “征信数据清洗→多维度指标提取(多 Prompt)→综合评分(单 Prompt)→结果可视化”,每个节点对应明确业务目标,便于数据团队负责清洗、算法团队负责指标提取,实现清晰分工。

  2. 从小规模场景起步测试

    初期不要构建复杂的节点组合,先选取简单场景,如仅提取征信报告中的负债和多头借贷两个指标,搭建由 2 个 Prompt 和 1 个整合节点组成的简易工作流。待流程跑通后,再逐步增加节点。这种方式便于快速定位问题,如负债 Prompt 设置不当或整合逻辑错误,减少整体返工。

  3. 先落地再迭代优化

    大模型落地应遵循 “先解决有无,再解决好坏” 的原则。若搭建的工作流能显著提升效率,例如将征信报告分析时间从 2 小时缩短至 10 分钟,即便部分指标存在偏差,也可先上线运行。后续通过 “收集错误案例→调整 Prompt→优化节点” 的方式,逐步完善工作流。正如信贷风控从规则和评分卡起步,逐步发展至神经网络,技术落地是渐进过程。

三、调优:标注才是核心

在大语言模型调优过程中,实践表明,高质量标注才是提升模型性能的关键因素。

  • 微调模式:需确保 “问题 - 答案” 配对的准确性。例如,当模型将 “融担贷款” 误判为 “普通贷款” 时,修正后应明确标注 “错误点:将融担借款 XX 元归类为普通贷款,正确归类应为融担贷款”,帮助模型精准定位错误。

  • 强化学习模式:除了提供优质答案,还需明确答案优劣之处。以评价用户信贷水平为例,优质答案需涵盖 “负债占比、还款记录、多头借贷” 三个维度;若答案仅提及负债,则应标注 “差答案未覆盖还款记录,无法全面评估信贷风险”,引导模型学习人类判断逻辑。

大模型性能的提升依赖高质量数据的支撑,扎实的标注工作对模型落地效果的提升作用更大。

结语

从 Prompt 设计、工作流搭建到模型调优,大语言模型落地的核心在于是否契合业务需求。

附录

  1. Q:Prompt 是什么?单 Prompt 和多 Prompt 的核心区别是什么?

    A:Prompt 即提示词。单 Prompt 是使用一个指令完成所有任务,例如直接让模型归纳征信报告整体情况,这种方式容易出现指令交叉干扰、输出结果不对齐的问题;多 Prompt 则采用 “各个击破” 策略,通过不同 Prompt 分别处理单一任务,比如用一个 Prompt 分析负债情况,另一个分析融担贷款,从而有效避免指令干扰,使输出结果更具一致性。

  2. Q:多 Prompt 如何组合使用?

    A:首先利用每个独立 Prompt 完成专属信息抽取任务,如负债、融担、高定价资产等信息提取;随后撰写一个额外的 Prompt,将所有抽取结果进行整合,形成最终输出内容。

  3. Q:单 Prompt 和多 Prompt 分别适合什么场景?

    A:多 Prompt 适用于任务目标明确、需要拆分独立维度的场景,如征信报告多指标提取;单 Prompt 则更适合模糊度高、需要多维度交叉理解的场景,例如判断用户消费能力、成长潜力等。

  4. Q:什么是大语言模型落地的 “工作流”?有什么优缺点?

    A:工作流是大语言模型落地的常见架构,其核心在于将任务拆分为 “串联 + 并联” 的节点,由不同角色(产品、数据、算法)负责维护各自节点。

  • 优点:便于拆解任务,利于项目管理,并且能够准确定位问题,例如发现某节点输出结果不佳。

  • 缺点:局部节点表现良好并不意味着整体效果出色,但这是所有上下游工作模式的共性问题,并非工作流架构本身的缺陷。

  1. Q:什么是 “黑盒模式”?怎么调优?为什么难落地?

    A:黑盒模式是指让大语言模型直接输出结果,不拆解任务节点,这种方式容易导致性能不足。调优时可采用 “大语言模型当裁判(LLM as a Judge)” 的方法,即使用另一个模型对输出结果进行评估,判断好坏并给出优化方向。该模式难以落地的原因在于其偏向技术导向,而当前大语言模型落地项目多由业务老板牵头,业务核心需求是降低成本,因此技术导向的黑盒模式与业务优先级不符。

  2. Q:如何撰写 Prompt?核心结构是什么?

    A:Prompt 的核心结构包含两部分,需以自然语言整合后输入模型:

  • 任务定义:明确模型扮演的角色,如 “你是信贷分析专家”,同时清晰阐述任务目标,例如 “根据征信报告评价用户信贷水平”。

  • 输入输出定义:将非文本信息(如 PDF 表格)转换为固定格式的文字内容,例如 “融担借款 XX 元”,并明确输出要求。

  1. Q:大语言模型是成熟工具吗?怎么调用?

    A:大语言模型已属于成熟工具,其调用核心方式是通过 API 实现,例如发送 POST 请求。调用过程中无需改动模型参数,只需将 “任务定义 + 输入信息” 整合后传入,模型便会按要求输出结果。

  2. Q:想让大语言模型输出新内容,能喂样本吗?有哪些方式?

    A:可以通过喂样本的方式让大语言模型输出新内容,主要有以下两种方式:

  • 微调模式:收集 “问题 + 修正后答案” 的配对样本,例如征信分析问题与纠错后的 JSON 结果,整合后输入原模型,使模型学习正确输出模式。

  • 强化学习模式:向模型提供 “好答案 + 差答案”,并明确告知优劣,帮助模型学习人类逻辑。

  1. Q:大语言模型调优的核心难点是什么?

    A:大语言模型调优的核心难点在于 “标注” 工作。这不仅需要标注更多的数据,而且标注质量越高,模型调优效果越好。因此,模型调优的底层基础是扎实的标注工作,而非复杂的技术手段。

LLM 系列导航

1 LLM:Function Call(1)从传统工具调用到函数驱动 2020-09-08
2 LLM:关注因果推断研究进展 2023-06-22
3 LLM:人机协作 2024-05-19
4 LLM:分层管理风险定性 2024-08-08
5 LLM:二阶段FN分层分析与模型提升空间测算 2024-09-12
6 LLM:二阶段FN分层分析与模型提升空间测算(2) 2024-09-12
7 LLM:二阶段FN分层分析与模型提升空间测算(3) 2024-09-12
8 LLM:二阶段FN分层分析与模型提升空间测算(4) 2024-09-12
9 LLM:推理不可复现的探索 2025-06-11
10 LLM:SFT 与 RL 的关系 2025-07-29
11 LLM:SFT 与 RL 的关系(理论修正与实践补充) 2025-07-30
12 LLM:SFT 与 RL 的关系(理论修正与实践补充II) 2025-07-31
13 LLM:低数据场景的决策树生成 2025-08-03
14 LLM:低数据场景的决策树生成(2)落地冷启动 2025-08-03
15 LLM:表格数据特征工程 2025-08-03
16 LLM:撰写大模型落地提示词的关键 2025-08-27
17 LLM:RL's Razor 抗遗忘 2025-09-04
18 LLM:RL's Razor 抗遗忘(2) 2025-09-04
19 LLM:RL's Razor 抗遗忘(3)SFT 与 RL 的认知偏差及应用 2025-09-04
20 LLM:RL's Razor 抗遗忘(4)on-policy认知误区 2025-09-04
21 LLM:RL's Razor 抗遗忘(5)RL在线生成样本 2025-09-04
22 LLM:MuseGraph融合GNN与LLM的通用图挖掘新框架 2025-09-05
23 LLM:幻觉成因与解决 2025-09-08
24 LLM:Agent 逻辑与应用场景 2025-09-23
25 LLM:拆解大模型缩放定律失效的三重分解 2025-10-05
26 LLM:近似on-policy数据抗遗忘 2025-10-21
27 LLM:近似on-policy数据抗遗忘(2)Iterative-SFT 2025-10-21
28 LLM:幻觉治理 2025-10-28
29 LLM:先验偏见(1)变量名带偏判断 2025-11-13
30 LLM:先验偏见(2)分层分析应对 2025-11-13
31 LLM:先验偏见(3)实验效度的场景化适配 2025-11-13
32 LLM:分层落地 2025-11-13
33 LLM:零样本在金融场景落地 2025-11-13
34 LLM:跨难度泛化的局限与量化 2025-11-26
35 LLM:重复提示词解锁非推理性能上限 2025-12-17
36 LLM:用失败样本提升指令遵循能力 2025-12-29
37 LLM:概率引导的高价值信号筛选 2026-01-14
38 LLM:低成本安全检测的级联方案 2026-01-16
39 LLM:定性编码的假阳性解决方案 2026-01-16
40 LLM:先验偏见(4)挑战与落地解决方案 2026-01-22
41 LLM:先验偏见(5)工程化方案 2026-01-22
42 LLM:SimRL(1)分层评估 2026-02-03
43 LLM:SimRL(2)理论逻辑与工程落地 2026-02-03