# AI 问答策略 本文档定义:**用户在智能问答中提交自定义问题后**,系统(或对接的大模型)应遵循的总体流程,以及**按问题类型组织的回答思路**。实施时可作为 Prompt 设计、RAG 检索策略与后处理校验的共用规范。 --- ## 一、文档用途 1. **自定义问题回答流程**:用户自由输入问题后,按第二节的流水线完成意图识别、数据与口径对齐、推理与输出,保证回答可追溯、口径一致。 2. **分类型回答思路**:第三节按典型业务问题归类,给出「应从哪些角度组织答案」的检查清单;具体数值以当前权限内数仓 / 分析上下文为准。 --- ## 二、自定义问题通用回答流程 建议固定为以下步骤(可部分自动化,但逻辑顺序不宜打乱)。 ### 2.1 输入校验与安全 - 判空、过长截断提示、敏感操作拒绝(如导出未授权明细)。 - 不臆造未在上下文或检索结果中出现的具体数字、医院名、批号等。 ### 2.2 意图与领域分类 将用户问题归入一个或多个标签,例如: | 大类 | 说明 | 典型关键词或语义 | |------|------|------------------| | 不良事件(AE) | 条数、趋势、占比、省份/产品切片 | AE、不良事件、上报、SAE、发生月、报告条数 | | 质量投诉 | 件数、结论、赔付、与 AE 关联 | 投诉、C3、调查结论、操作不当、关闭 | | 营销 / 入院量 | 率、排名、与投诉联动 | 入院量、Qty、投诉率、每千件 | | 合规审计 | 漏报、匹配规则、标记集合 | 漏报、合规、审计、匹配 | | 元问题 | 数据范围、口径定义、Demo 说明 | 多少条数据、口径、时间范围 | 无法归类时,先**澄清**(缺时间范围、统计维度、指标定义)再答,或给出**安全泛化**说明并建议可下钻维度。 ### 2.3 指标与口径对齐 - 从**指标口径文档 / 本页约定**中解析:统计单元(如「报告条数」)、时间轴(如「发生日期」所在月 vs「审核日期」)、过滤条件(如是否含重复报告规则)。 - 若用户口径与系统默认不一致,**显式说明**正在采用的定义,并提示如何按用户口径重新查询(若支持)。 ### 2.4 数据与证据获取 - 拉取与问题匹配的**聚合结果**(趋势、对比、TopN、占比),必要时附**下钻维度**(产品、省份、医院、事业线、是否 SAE)。 - 记录**证据摘要**(用于回答中的「依据当前数据集…」及后续审计追溯)。 ### 2.5 组织答案结构 推荐顺序(可按问题类型裁剪): 1. **结论摘要**(一句话回应用户核心问法)。 2. **关键数字**(绝对量、占比、同比/环比,与用户问法一致)。 3. **对比与背景**(历史同期、相邻月份、同类产品线是否同步波动)。 4. **可能解释**(分点列出假设因素,标注为「需结合业务验证」而非定论)。 5. **局限与下一步**(样本量、缺失字段、建议图表或专题分析页)。 ### 2.6 输出质量检查 - 数字与上下文一致;单位、时间范围写清。 - 「因果」类表述避免绝对化:用「可能与…相关」「建议核查…」等措辞。 - 附**来源**标签(如:聚合接口、预设模板、知识库片段),便于 Demo 与生产环境区分。 --- ## 三、分类型问题:回答思路清单 ### 3.1 AE 数量变化 / 「为何增加或减少」 用户关心的是**变化是否异常**以及**可能原因**,回答宜覆盖: 1. **绝对值**:涉及月份(或区间)的报告条数各为多少;净增减多少条。 2. **相对变化**:环比/同比**增长率或倍数**;避免仅用口语「翻倍」而不给基数。 3. **历史可比性**:往年同月、近若干月的中位数或分位数;是否**首次出现**此类波动或**周期性重复**(如季节、集中上报批次)。 4. **结构分解(产品因素)**:按事业线 / 产品 / 注册证 / 型号拆分,增量是否由**少数 SKU 或聚集事件**驱动。 5. **结构分解(地域与机构)**:省份、医院是否有点状爆发;是否与新入院区域或新装机相关(若数据支持)。 6. **报告与流程因素**:上报批次截止、监管填报窗口、重复报告剔除规则变更等**流程性解释**(需与合规口径一致)。 7. **报告者 / 伤害与故障表现**:严重度(SAE 占比)、伤害表现或器械故障类别是否结构迁移(提示是否「报告质量或分类变化」而非单纯件数变化)。 8. **收尾**:明确哪些结论可由当前数据直接支持,哪些需业务侧补充(临床反馈、批次调查、外部事件)。 ### 3.2 AE 简单计数 / 排名类(如某月多少条、哪省最多) 1. 直接给出**当前口径下**的数字或 Top 列表。 2. 说明**时间维度**(发生月 / 审核月)与**统计范围**(全量 / 某产品线)。 3. 若有并列第二、第三名,可一句带过以增强可比性。 ### 3.3 两个月或多个月对比(「差异大吗」「哪个月更高」) 1. 各月**绝对条数**并列。 2. **差值与比率**(注意小基数时比率易失真,需提示)。 3. **结构对比**:若条数接近,可对比 SAE 占比、产品构成是否不同。 4. **解释边界**:样本随机波动 vs 可叙述的业务假设,分条列出并标注置信程度。 ### 3.4 合规与漏报 / 匹配审计类 1. 说明**基准集合**定义(例如:投诉标记为不良事件的记录数)。 2. 给出**匹配规则摘要**(如医院 + 产品 + 型号,时间窗 ≤30 天等,以实际规则为准)。 3. 输出**疑似漏报条数与漏报率**,并说明「疑似」含义及人工复核必要性。 ### 3.5 质量投诉:调查结论、操作不当、医院排名等 1. 明确统计的是**投诉条数**还是**已关闭子集**等。 2. 给出**分布或 TopN**;若问「最多」,写清维度(如调查结论 = 操作不当)。 3. 与 AE 或营销页**交叉引用**时,说明是否为同一数据源、时间是否对齐。 ### 3.6 营销:投诉率(如每千件入院量)、省级对比 1. 写清**分子**(投诉条数如何映射到省)、**分母**(入院 Qty 汇总口径)。 2. 给出**率值与排名**;注意极低分母导致的极值,必要时提示稳健性。 3. 区分「投诉多」与「率高」:入院量大的省份可能件数多但率不高。 ### 3.7 占比类(如 SAE 占 AE、调查结论占比) 1. 定义**分母**(全部 AE、全部投诉等)。 2. 给出**整体或按月的比例**;若给平均值,说明时间范围。 3. 指向可视化(曲线/饼图)以便用户复核。 ### 3.8 数据范围与元问题(多少条记录、Demo 说明) 1. 当前加载或权限范围内的**表名 + 记录数 + 时间跨度**。 2. 说明与正式环境的差异(mock、缓存、权限)。 ### 3.9 无法命中或超出数据能力 1. 礼貌说明**未命中**或可答部分。 2. 列出**建议改写**或**可支持的关键词 / 维度**(与产品示例问题对齐)。 3. 生产环境:说明可对接**数仓 / 文档检索 / 人工工单**等扩展路径。 --- ## 四、与实现的衔接建议 - **前端 / Demo**:可将用户问题、当前 `AnalysisContext` 摘要、本策略第三节匹配到的小节标题,一并作为 System 或 Tool 提示,约束模型输出结构。 - **知识库**:将《数据与表结构》、各分析页指标编号(如 MKT-RG-201)与本文档第二节、第三节联合检索,减少口径漂移。 - **评测**:对每类问题准备标准问法与必含要点(如 3.1 须含绝对值 + 百分比 + 至少两类因素分解),用于回归测试。 --- ## 五、修订记录 | 版本 | 日期 | 说明 | |------|------|------| | 0.1 | 2026-04-16 | 初稿:通用流程 + 分类型思路(含 AE 增减分析维度) |