Data_Analysis/AI问答策略.md

143 lines
7.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# AI 问答策略
本文档定义:**用户在智能问答中提交自定义问题后**,系统(或对接的大模型)应遵循的总体流程,以及**按问题类型组织的回答思路**。实施时可作为 Prompt 设计、RAG 检索策略与后处理校验的共用规范。
---
## 一、文档用途
1. **自定义问题回答流程**:用户自由输入问题后,按第二节的流水线完成意图识别、数据与口径对齐、推理与输出,保证回答可追溯、口径一致。
2. **分类型回答思路**:第三节按典型业务问题归类,给出「应从哪些角度组织答案」的检查清单;具体数值以当前权限内数仓 / 分析上下文为准。
---
## 二、自定义问题通用回答流程
建议固定为以下步骤(可部分自动化,但逻辑顺序不宜打乱)。
### 2.1 输入校验与安全
- 判空、过长截断提示、敏感操作拒绝(如导出未授权明细)。
- 不臆造未在上下文或检索结果中出现的具体数字、医院名、批号等。
### 2.2 意图与领域分类
将用户问题归入一个或多个标签,例如:
| 大类 | 说明 | 典型关键词或语义 |
|------|------|------------------|
| 不良事件AE | 条数、趋势、占比、省份/产品切片 | AE、不良事件、上报、SAE、发生月、报告条数 |
| 质量投诉 | 件数、结论、赔付、与 AE 关联 | 投诉、C3、调查结论、操作不当、关闭 |
| 营销 / 入院量 | 率、排名、与投诉联动 | 入院量、Qty、投诉率、每千件 |
| 合规审计 | 漏报、匹配规则、标记集合 | 漏报、合规、审计、匹配 |
| 元问题 | 数据范围、口径定义、Demo 说明 | 多少条数据、口径、时间范围 |
无法归类时,先**澄清**(缺时间范围、统计维度、指标定义)再答,或给出**安全泛化**说明并建议可下钻维度。
### 2.3 指标与口径对齐
- 从**指标口径文档 / 本页约定**中解析:统计单元(如「报告条数」)、时间轴(如「发生日期」所在月 vs「审核日期」、过滤条件如是否含重复报告规则
- 若用户口径与系统默认不一致,**显式说明**正在采用的定义,并提示如何按用户口径重新查询(若支持)。
### 2.4 数据与证据获取
- 拉取与问题匹配的**聚合结果**趋势、对比、TopN、占比必要时附**下钻维度**(产品、省份、医院、事业线、是否 SAE
- 记录**证据摘要**(用于回答中的「依据当前数据集…」及后续审计追溯)。
### 2.5 组织答案结构
推荐顺序(可按问题类型裁剪):
1. **结论摘要**(一句话回应用户核心问法)。
2. **关键数字**(绝对量、占比、同比/环比,与用户问法一致)。
3. **对比与背景**(历史同期、相邻月份、同类产品线是否同步波动)。
4. **可能解释**(分点列出假设因素,标注为「需结合业务验证」而非定论)。
5. **局限与下一步**(样本量、缺失字段、建议图表或专题分析页)。
### 2.6 输出质量检查
- 数字与上下文一致;单位、时间范围写清。
- 「因果」类表述避免绝对化:用「可能与…相关」「建议核查…」等措辞。
- 附**来源**标签(如:聚合接口、预设模板、知识库片段),便于 Demo 与生产环境区分。
---
## 三、分类型问题:回答思路清单
### 3.1 AE 数量变化 / 「为何增加或减少」
用户关心的是**变化是否异常**以及**可能原因**,回答宜覆盖:
1. **绝对值**:涉及月份(或区间)的报告条数各为多少;净增减多少条。
2. **相对变化**:环比/同比**增长率或倍数**;避免仅用口语「翻倍」而不给基数。
3. **历史可比性**:往年同月、近若干月的中位数或分位数;是否**首次出现**此类波动或**周期性重复**(如季节、集中上报批次)。
4. **结构分解(产品因素)**:按事业线 / 产品 / 注册证 / 型号拆分,增量是否由**少数 SKU 或聚集事件**驱动。
5. **结构分解(地域与机构)**:省份、医院是否有点状爆发;是否与新入院区域或新装机相关(若数据支持)。
6. **报告与流程因素**:上报批次截止、监管填报窗口、重复报告剔除规则变更等**流程性解释**(需与合规口径一致)。
7. **报告者 / 伤害与故障表现**严重度SAE 占比)、伤害表现或器械故障类别是否结构迁移(提示是否「报告质量或分类变化」而非单纯件数变化)。
8. **收尾**:明确哪些结论可由当前数据直接支持,哪些需业务侧补充(临床反馈、批次调查、外部事件)。
### 3.2 AE 简单计数 / 排名类(如某月多少条、哪省最多)
1. 直接给出**当前口径下**的数字或 Top 列表。
2. 说明**时间维度**(发生月 / 审核月)与**统计范围**(全量 / 某产品线)。
3. 若有并列第二、第三名,可一句带过以增强可比性。
### 3.3 两个月或多个月对比(「差异大吗」「哪个月更高」)
1. 各月**绝对条数**并列。
2. **差值与比率**(注意小基数时比率易失真,需提示)。
3. **结构对比**:若条数接近,可对比 SAE 占比、产品构成是否不同。
4. **解释边界**:样本随机波动 vs 可叙述的业务假设,分条列出并标注置信程度。
### 3.4 合规与漏报 / 匹配审计类
1. 说明**基准集合**定义(例如:投诉标记为不良事件的记录数)。
2. 给出**匹配规则摘要**(如医院 + 产品 + 型号,时间窗 ≤30 天等,以实际规则为准)。
3. 输出**疑似漏报条数与漏报率**,并说明「疑似」含义及人工复核必要性。
### 3.5 质量投诉:调查结论、操作不当、医院排名等
1. 明确统计的是**投诉条数**还是**已关闭子集**等。
2. 给出**分布或 TopN**;若问「最多」,写清维度(如调查结论 = 操作不当)。
3. 与 AE 或营销页**交叉引用**时,说明是否为同一数据源、时间是否对齐。
### 3.6 营销:投诉率(如每千件入院量)、省级对比
1. 写清**分子**(投诉条数如何映射到省)、**分母**(入院 Qty 汇总口径)。
2. 给出**率值与排名**;注意极低分母导致的极值,必要时提示稳健性。
3. 区分「投诉多」与「率高」:入院量大的省份可能件数多但率不高。
### 3.7 占比类(如 SAE 占 AE、调查结论占比
1. 定义**分母**(全部 AE、全部投诉等
2. 给出**整体或按月的比例**;若给平均值,说明时间范围。
3. 指向可视化(曲线/饼图)以便用户复核。
### 3.8 数据范围与元问题多少条记录、Demo 说明)
1. 当前加载或权限范围内的**表名 + 记录数 + 时间跨度**。
2. 说明与正式环境的差异mock、缓存、权限
### 3.9 无法命中或超出数据能力
1. 礼貌说明**未命中**或可答部分。
2. 列出**建议改写**或**可支持的关键词 / 维度**(与产品示例问题对齐)。
3. 生产环境:说明可对接**数仓 / 文档检索 / 人工工单**等扩展路径。
---
## 四、与实现的衔接建议
- **前端 / Demo**:可将用户问题、当前 `AnalysisContext` 摘要、本策略第三节匹配到的小节标题,一并作为 System 或 Tool 提示,约束模型输出结构。
- **知识库**:将《数据与表结构》、各分析页指标编号(如 MKT-RG-201与本文档第二节、第三节联合检索减少口径漂移。
- **评测**:对每类问题准备标准问法与必含要点(如 3.1 须含绝对值 + 百分比 + 至少两类因素分解),用于回归测试。
---
## 五、修订记录
| 版本 | 日期 | 说明 |
|------|------|------|
| 0.1 | 2026-04-16 | 初稿:通用流程 + 分类型思路(含 AE 增减分析维度) |