7.9 KiB
7.9 KiB
AI 问答策略
本文档定义:用户在智能问答中提交自定义问题后,系统(或对接的大模型)应遵循的总体流程,以及按问题类型组织的回答思路。实施时可作为 Prompt 设计、RAG 检索策略与后处理校验的共用规范。
一、文档用途
- 自定义问题回答流程:用户自由输入问题后,按第二节的流水线完成意图识别、数据与口径对齐、推理与输出,保证回答可追溯、口径一致。
- 分类型回答思路:第三节按典型业务问题归类,给出「应从哪些角度组织答案」的检查清单;具体数值以当前权限内数仓 / 分析上下文为准。
二、自定义问题通用回答流程
建议固定为以下步骤(可部分自动化,但逻辑顺序不宜打乱)。
2.1 输入校验与安全
- 判空、过长截断提示、敏感操作拒绝(如导出未授权明细)。
- 不臆造未在上下文或检索结果中出现的具体数字、医院名、批号等。
2.2 意图与领域分类
将用户问题归入一个或多个标签,例如:
| 大类 | 说明 | 典型关键词或语义 |
|---|---|---|
| 不良事件(AE) | 条数、趋势、占比、省份/产品切片 | AE、不良事件、上报、SAE、发生月、报告条数 |
| 质量投诉 | 件数、结论、赔付、与 AE 关联 | 投诉、C3、调查结论、操作不当、关闭 |
| 营销 / 入院量 | 率、排名、与投诉联动 | 入院量、Qty、投诉率、每千件 |
| 合规审计 | 漏报、匹配规则、标记集合 | 漏报、合规、审计、匹配 |
| 元问题 | 数据范围、口径定义、Demo 说明 | 多少条数据、口径、时间范围 |
无法归类时,先澄清(缺时间范围、统计维度、指标定义)再答,或给出安全泛化说明并建议可下钻维度。
2.3 指标与口径对齐
- 从指标口径文档 / 本页约定中解析:统计单元(如「报告条数」)、时间轴(如「发生日期」所在月 vs「审核日期」)、过滤条件(如是否含重复报告规则)。
- 若用户口径与系统默认不一致,显式说明正在采用的定义,并提示如何按用户口径重新查询(若支持)。
2.4 数据与证据获取
- 拉取与问题匹配的聚合结果(趋势、对比、TopN、占比),必要时附下钻维度(产品、省份、医院、事业线、是否 SAE)。
- 记录证据摘要(用于回答中的「依据当前数据集…」及后续审计追溯)。
2.5 组织答案结构
推荐顺序(可按问题类型裁剪):
- 结论摘要(一句话回应用户核心问法)。
- 关键数字(绝对量、占比、同比/环比,与用户问法一致)。
- 对比与背景(历史同期、相邻月份、同类产品线是否同步波动)。
- 可能解释(分点列出假设因素,标注为「需结合业务验证」而非定论)。
- 局限与下一步(样本量、缺失字段、建议图表或专题分析页)。
2.6 输出质量检查
- 数字与上下文一致;单位、时间范围写清。
- 「因果」类表述避免绝对化:用「可能与…相关」「建议核查…」等措辞。
- 附来源标签(如:聚合接口、预设模板、知识库片段),便于 Demo 与生产环境区分。
三、分类型问题:回答思路清单
3.1 AE 数量变化 / 「为何增加或减少」
用户关心的是变化是否异常以及可能原因,回答宜覆盖:
- 绝对值:涉及月份(或区间)的报告条数各为多少;净增减多少条。
- 相对变化:环比/同比增长率或倍数;避免仅用口语「翻倍」而不给基数。
- 历史可比性:往年同月、近若干月的中位数或分位数;是否首次出现此类波动或周期性重复(如季节、集中上报批次)。
- 结构分解(产品因素):按事业线 / 产品 / 注册证 / 型号拆分,增量是否由少数 SKU 或聚集事件驱动。
- 结构分解(地域与机构):省份、医院是否有点状爆发;是否与新入院区域或新装机相关(若数据支持)。
- 报告与流程因素:上报批次截止、监管填报窗口、重复报告剔除规则变更等流程性解释(需与合规口径一致)。
- 报告者 / 伤害与故障表现:严重度(SAE 占比)、伤害表现或器械故障类别是否结构迁移(提示是否「报告质量或分类变化」而非单纯件数变化)。
- 收尾:明确哪些结论可由当前数据直接支持,哪些需业务侧补充(临床反馈、批次调查、外部事件)。
3.2 AE 简单计数 / 排名类(如某月多少条、哪省最多)
- 直接给出当前口径下的数字或 Top 列表。
- 说明时间维度(发生月 / 审核月)与统计范围(全量 / 某产品线)。
- 若有并列第二、第三名,可一句带过以增强可比性。
3.3 两个月或多个月对比(「差异大吗」「哪个月更高」)
- 各月绝对条数并列。
- 差值与比率(注意小基数时比率易失真,需提示)。
- 结构对比:若条数接近,可对比 SAE 占比、产品构成是否不同。
- 解释边界:样本随机波动 vs 可叙述的业务假设,分条列出并标注置信程度。
3.4 合规与漏报 / 匹配审计类
- 说明基准集合定义(例如:投诉标记为不良事件的记录数)。
- 给出匹配规则摘要(如医院 + 产品 + 型号,时间窗 ≤30 天等,以实际规则为准)。
- 输出疑似漏报条数与漏报率,并说明「疑似」含义及人工复核必要性。
3.5 质量投诉:调查结论、操作不当、医院排名等
- 明确统计的是投诉条数还是已关闭子集等。
- 给出分布或 TopN;若问「最多」,写清维度(如调查结论 = 操作不当)。
- 与 AE 或营销页交叉引用时,说明是否为同一数据源、时间是否对齐。
3.6 营销:投诉率(如每千件入院量)、省级对比
- 写清分子(投诉条数如何映射到省)、分母(入院 Qty 汇总口径)。
- 给出率值与排名;注意极低分母导致的极值,必要时提示稳健性。
- 区分「投诉多」与「率高」:入院量大的省份可能件数多但率不高。
3.7 占比类(如 SAE 占 AE、调查结论占比)
- 定义分母(全部 AE、全部投诉等)。
- 给出整体或按月的比例;若给平均值,说明时间范围。
- 指向可视化(曲线/饼图)以便用户复核。
3.8 数据范围与元问题(多少条记录、Demo 说明)
- 当前加载或权限范围内的表名 + 记录数 + 时间跨度。
- 说明与正式环境的差异(mock、缓存、权限)。
3.9 无法命中或超出数据能力
- 礼貌说明未命中或可答部分。
- 列出建议改写或可支持的关键词 / 维度(与产品示例问题对齐)。
- 生产环境:说明可对接数仓 / 文档检索 / 人工工单等扩展路径。
四、与实现的衔接建议
- 前端 / Demo:可将用户问题、当前
AnalysisContext摘要、本策略第三节匹配到的小节标题,一并作为 System 或 Tool 提示,约束模型输出结构。 - 知识库:将《数据与表结构》、各分析页指标编号(如 MKT-RG-201)与本文档第二节、第三节联合检索,减少口径漂移。
- 评测:对每类问题准备标准问法与必含要点(如 3.1 须含绝对值 + 百分比 + 至少两类因素分解),用于回归测试。
五、修订记录
| 版本 | 日期 | 说明 |
|---|---|---|
| 0.1 | 2026-04-16 | 初稿:通用流程 + 分类型思路(含 AE 增减分析维度) |