Data_Analysis/AI问答策略.md

# AI 问答策略

本文档定义：**用户在智能问答中提交自定义问题后**，系统（或对接的大模型）应遵循的总体流程，以及**按问题类型组织的回答思路**。实施时可作为 Prompt 设计、RAG 检索策略与后处理校验的共用规范。

---

## 一、文档用途

1. **自定义问题回答流程**：用户自由输入问题后，按第二节的流水线完成意图识别、数据与口径对齐、推理与输出，保证回答可追溯、口径一致。
2. **分类型回答思路**：第三节按典型业务问题归类，给出「应从哪些角度组织答案」的检查清单；具体数值以当前权限内数仓 / 分析上下文为准。

---

## 二、自定义问题通用回答流程

建议固定为以下步骤（可部分自动化，但逻辑顺序不宜打乱）。

### 2.1 输入校验与安全

- 判空、过长截断提示、敏感操作拒绝（如导出未授权明细）。
- 不臆造未在上下文或检索结果中出现的具体数字、医院名、批号等。

### 2.2 意图与领域分类

将用户问题归入一个或多个标签，例如：

| 大类 | 说明 | 典型关键词或语义 |
|------|------|------------------|
| 不良事件（AE） | 条数、趋势、占比、省份/产品切片 | AE、不良事件、上报、SAE、发生月、报告条数 |
| 质量投诉 | 件数、结论、赔付、与 AE 关联 | 投诉、C3、调查结论、操作不当、关闭 |
| 营销 / 入院量 | 率、排名、与投诉联动 | 入院量、Qty、投诉率、每千件 |
| 合规审计 | 漏报、匹配规则、标记集合 | 漏报、合规、审计、匹配 |
| 元问题 | 数据范围、口径定义、Demo 说明 | 多少条数据、口径、时间范围 |

无法归类时，先**澄清**（缺时间范围、统计维度、指标定义）再答，或给出**安全泛化**说明并建议可下钻维度。

### 2.3 指标与口径对齐

- 从**指标口径文档 / 本页约定**中解析：统计单元（如「报告条数」）、时间轴（如「发生日期」所在月 vs「审核日期」）、过滤条件（如是否含重复报告规则）。
- 若用户口径与系统默认不一致，**显式说明**正在采用的定义，并提示如何按用户口径重新查询（若支持）。

### 2.4 数据与证据获取

- 拉取与问题匹配的**聚合结果**（趋势、对比、TopN、占比），必要时附**下钻维度**（产品、省份、医院、事业线、是否 SAE）。
- 记录**证据摘要**（用于回答中的「依据当前数据集…」及后续审计追溯）。

### 2.5 组织答案结构

推荐顺序（可按问题类型裁剪）：

1. **结论摘要**（一句话回应用户核心问法）。
2. **关键数字**（绝对量、占比、同比/环比，与用户问法一致）。
3. **对比与背景**（历史同期、相邻月份、同类产品线是否同步波动）。
4. **可能解释**（分点列出假设因素，标注为「需结合业务验证」而非定论）。
5. **局限与下一步**（样本量、缺失字段、建议图表或专题分析页）。

### 2.6 输出质量检查

- 数字与上下文一致；单位、时间范围写清。
- 「因果」类表述避免绝对化：用「可能与…相关」「建议核查…」等措辞。
- 附**来源**标签（如：聚合接口、预设模板、知识库片段），便于 Demo 与生产环境区分。

---

## 三、分类型问题：回答思路清单

### 3.1 AE 数量变化 / 「为何增加或减少」

用户关心的是**变化是否异常**以及**可能原因**，回答宜覆盖：

1. **绝对值**：涉及月份（或区间）的报告条数各为多少；净增减多少条。
2. **相对变化**：环比/同比**增长率或倍数**；避免仅用口语「翻倍」而不给基数。
3. **历史可比性**：往年同月、近若干月的中位数或分位数；是否**首次出现**此类波动或**周期性重复**（如季节、集中上报批次）。
4. **结构分解（产品因素）**：按事业线 / 产品 / 注册证 / 型号拆分，增量是否由**少数 SKU 或聚集事件**驱动。
5. **结构分解（地域与机构）**：省份、医院是否有点状爆发；是否与新入院区域或新装机相关（若数据支持）。
6. **报告与流程因素**：上报批次截止、监管填报窗口、重复报告剔除规则变更等**流程性解释**（需与合规口径一致）。
7. **报告者 / 伤害与故障表现**：严重度（SAE 占比）、伤害表现或器械故障类别是否结构迁移（提示是否「报告质量或分类变化」而非单纯件数变化）。
8. **收尾**：明确哪些结论可由当前数据直接支持，哪些需业务侧补充（临床反馈、批次调查、外部事件）。

### 3.2 AE 简单计数 / 排名类（如某月多少条、哪省最多）

1. 直接给出**当前口径下**的数字或 Top 列表。
2. 说明**时间维度**（发生月 / 审核月）与**统计范围**（全量 / 某产品线）。
3. 若有并列第二、第三名，可一句带过以增强可比性。

### 3.3 两个月或多个月对比（「差异大吗」「哪个月更高」）

1. 各月**绝对条数**并列。
2. **差值与比率**（注意小基数时比率易失真，需提示）。
3. **结构对比**：若条数接近，可对比 SAE 占比、产品构成是否不同。
4. **解释边界**：样本随机波动 vs 可叙述的业务假设，分条列出并标注置信程度。

### 3.4 合规与漏报 / 匹配审计类

1. 说明**基准集合**定义（例如：投诉标记为不良事件的记录数）。
2. 给出**匹配规则摘要**（如医院 + 产品 + 型号，时间窗 ≤30 天等，以实际规则为准）。
3. 输出**疑似漏报条数与漏报率**，并说明「疑似」含义及人工复核必要性。

### 3.5 质量投诉：调查结论、操作不当、医院排名等

1. 明确统计的是**投诉条数**还是**已关闭子集**等。
2. 给出**分布或 TopN**；若问「最多」，写清维度（如调查结论 = 操作不当）。
3. 与 AE 或营销页**交叉引用**时，说明是否为同一数据源、时间是否对齐。

### 3.6 营销：投诉率（如每千件入院量）、省级对比

1. 写清**分子**（投诉条数如何映射到省）、**分母**（入院 Qty 汇总口径）。
2. 给出**率值与排名**；注意极低分母导致的极值，必要时提示稳健性。
3. 区分「投诉多」与「率高」：入院量大的省份可能件数多但率不高。

### 3.7 占比类（如 SAE 占 AE、调查结论占比）

1. 定义**分母**（全部 AE、全部投诉等）。
2. 给出**整体或按月的比例**；若给平均值，说明时间范围。
3. 指向可视化（曲线/饼图）以便用户复核。

### 3.8 数据范围与元问题（多少条记录、Demo 说明）

1. 当前加载或权限范围内的**表名 + 记录数 + 时间跨度**。
2. 说明与正式环境的差异（mock、缓存、权限）。

### 3.9 无法命中或超出数据能力

1. 礼貌说明**未命中**或可答部分。
2. 列出**建议改写**或**可支持的关键词 / 维度**（与产品示例问题对齐）。
3. 生产环境：说明可对接**数仓 / 文档检索 / 人工工单**等扩展路径。

---

## 四、与实现的衔接建议

- **前端 / Demo**：可将用户问题、当前 `AnalysisContext` 摘要、本策略第三节匹配到的小节标题，一并作为 System 或 Tool 提示，约束模型输出结构。
- **知识库**：将《数据与表结构》、各分析页指标编号（如 MKT-RG-201）与本文档第二节、第三节联合检索，减少口径漂移。
- **评测**：对每类问题准备标准问法与必含要点（如 3.1 须含绝对值 + 百分比 + 至少两类因素分解），用于回归测试。

---

## 五、修订记录

| 版本 | 日期 | 说明 |
|------|------|------|
| 0.1 | 2026-04-16 | 初稿：通用流程 + 分类型思路（含 AE 增减分析维度） |