1 min read

LLM：从 Prompt 设计到工作流落地

2025/08/28

本文将探讨大语言模型的 Prompt 设计、单 / 多 Prompt 选择，以及落地关键的 “工作流” 架构，并结合高频问题，拆解从 Prompt 到工作流的实操步骤。

在使用 Prompt 时，很多人纠结选择单 Prompt 还是多 Prompt，其实关键在于先明确应用场景：

处理 “标准化、多维度” 任务，如提取征信报告中的负债、融担、多头借贷等指标，适合采用多 Prompt 拆分策略。具体可通过 3 个独立 Prompt 分别提取 3 个指标，再用 1 个 Prompt 整合结果。这种方式可避免指令冲突，确保每个指标提取的准确性。
对于 “模糊化、需综合判断” 的决策，例如评估 “用户是否适合大额信贷”，建议使用单 Prompt。因为还款能力、消费习惯、负债结构等评估要素相互关联，单 Prompt 能让模型进行交叉分析，若拆分反而会破坏整体逻辑。

此外，输入格式对 Prompt 效果影响显著。若原始数据为表格或 PDF，需先将其转换为模型可识别的文字形式。例如，将征信表格中的 “贷款机构、金额、期限” 等信息整理为短句，否则信息格式混乱会导致模型输出偏差。

当使用大模型处理信贷风控、用户画像等复杂任务时，单一 Prompt 无法满足需求，工作流便成为落地的核心架构。以下 3 个实操建议：

按业务逻辑划分节点

避免按 “数据处理→模型调用→结果输出” 的技术逻辑拆分。以用户信贷评估为例，可拆解为 “征信数据清洗→多维度指标提取（多 Prompt）→综合评分（单 Prompt）→结果可视化”，每个节点对应明确业务目标，便于数据团队负责清洗、算法团队负责指标提取，实现清晰分工。
从小规模场景起步测试

初期不要构建复杂的节点组合，先选取简单场景，如仅提取征信报告中的负债和多头借贷两个指标，搭建由 2 个 Prompt 和 1 个整合节点组成的简易工作流。待流程跑通后，再逐步增加节点。这种方式便于快速定位问题，如负债 Prompt 设置不当或整合逻辑错误，减少整体返工。
先落地再迭代优化

大模型落地应遵循 “先解决有无，再解决好坏” 的原则。若搭建的工作流能显著提升效率，例如将征信报告分析时间从 2 小时缩短至 10 分钟，即便部分指标存在偏差，也可先上线运行。后续通过 “收集错误案例→调整 Prompt→优化节点” 的方式，逐步完善工作流。正如信贷风控从规则和评分卡起步，逐步发展至神经网络，技术落地是渐进过程。

在大语言模型调优过程中，实践表明，高质量标注才是提升模型性能的关键因素。

微调模式：需确保 “问题 - 答案” 配对的准确性。例如，当模型将 “融担贷款” 误判为 “普通贷款” 时，修正后应明确标注 “错误点：将融担借款 XX 元归类为普通贷款，正确归类应为融担贷款”，帮助模型精准定位错误。
强化学习模式：除了提供优质答案，还需明确答案优劣之处。以评价用户信贷水平为例，优质答案需涵盖 “负债占比、还款记录、多头借贷” 三个维度；若答案仅提及负债，则应标注 “差答案未覆盖还款记录，无法全面评估信贷风险”，引导模型学习人类判断逻辑。

大模型性能的提升依赖高质量数据的支撑，扎实的标注工作对模型落地效果的提升作用更大。

从 Prompt 设计、工作流搭建到模型调优，大语言模型落地的核心在于是否契合业务需求。

Q：Prompt 是什么？单 Prompt 和多 Prompt 的核心区别是什么？

A：Prompt 即提示词。单 Prompt 是使用一个指令完成所有任务，例如直接让模型归纳征信报告整体情况，这种方式容易出现指令交叉干扰、输出结果不对齐的问题；多 Prompt 则采用 “各个击破” 策略，通过不同 Prompt 分别处理单一任务，比如用一个 Prompt 分析负债情况，另一个分析融担贷款，从而有效避免指令干扰，使输出结果更具一致性。
Q：多 Prompt 如何组合使用？

A：首先利用每个独立 Prompt 完成专属信息抽取任务，如负债、融担、高定价资产等信息提取；随后撰写一个额外的 Prompt，将所有抽取结果进行整合，形成最终输出内容。
Q：单 Prompt 和多 Prompt 分别适合什么场景？

A：多 Prompt 适用于任务目标明确、需要拆分独立维度的场景，如征信报告多指标提取；单 Prompt 则更适合模糊度高、需要多维度交叉理解的场景，例如判断用户消费能力、成长潜力等。
Q：什么是大语言模型落地的 “工作流”？有什么优缺点？

A：工作流是大语言模型落地的常见架构，其核心在于将任务拆分为 “串联 + 并联” 的节点，由不同角色（产品、数据、算法）负责维护各自节点。

Q：什么是 “黑盒模式”？怎么调优？为什么难落地？

A：黑盒模式是指让大语言模型直接输出结果，不拆解任务节点，这种方式容易导致性能不足。调优时可采用 “大语言模型当裁判（LLM as a Judge）” 的方法，即使用另一个模型对输出结果进行评估，判断好坏并给出优化方向。该模式难以落地的原因在于其偏向技术导向，而当前大语言模型落地项目多由业务老板牵头，业务核心需求是降低成本，因此技术导向的黑盒模式与业务优先级不符。
Q：如何撰写 Prompt？核心结构是什么？

A：Prompt 的核心结构包含两部分，需以自然语言整合后输入模型：

Q：大语言模型是成熟工具吗？怎么调用？

A：大语言模型已属于成熟工具，其调用核心方式是通过 API 实现，例如发送 POST 请求。调用过程中无需改动模型参数，只需将 “任务定义 + 输入信息” 整合后传入，模型便会按要求输出结果。
Q：想让大语言模型输出新内容，能喂样本吗？有哪些方式？

A：可以通过喂样本的方式让大语言模型输出新内容，主要有以下两种方式：

Q：大语言模型调优的核心难点是什么？

A：大语言模型调优的核心难点在于 “标注” 工作。这不仅需要标注更多的数据，而且标注质量越高，模型调优效果越好。因此，模型调优的底层基础是扎实的标注工作，而非复杂的技术手段。