Data_Analysis/数据准备过程/模拟数据生成-提示词/生成不良事件模拟数据.md

147 lines
8.6 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

生成不良事件模拟数据
# 角色与目标
你是数据分析助手。请根据本地 Excel 表头,生成 1000 条「贝朗B. Braun相关产品」的模拟不良事件数据仅用于内部分析、培训或演示非真实上报数据并导出为新的 Excel 文件。
# 1. 输入文件(必须先读)
路径:贝朗数据/不良事件数据-表头.xlsx若工作区根目录不同以用户提供的「贝朗数据」文件夹为准
| 列 | 字段名 |
|----|--------|
| A | 报告编码 |
| B | CC |
| C | 单位名称 |
| D | 事业线 |
| E | 产品名称 |
| F | 注册证编号/曾用注册证编号 |
| G | 注册人 |
| H | 型号 |
| I | 产品批号 |
| J | 伤害 |
| K | 伤害表现 |
| L | 器械故障表现 |
| M | 审核日期 |
工作表名:**POWER BI 总信息**(与源文件一致)。
# 2. 各列填充规则AM
以下规则适用于第 21001 行数据行;第 1 行为表头,不得改动列名与列顺序。
## A 列「报告编码」
- 1000 条记录**互不重复**。
- 格式建议:`SIM-年份-6 位序号`(如 `SIM-2024-000001``SIM-2024-001000`);若源表头文件中有示例编码,优先与示例**风格一致**。
- 仅作模拟数据集主键,**不代表**任何真实上报编号。
## B 列「CC」
- 表示投诉/反馈渠道或分类的简短标签(具体含义可按内部分类理解)。
- 从有限**枚举池**中抽取并轮换使用,例如:`质量反馈`、`临床使用`、`包装标识`、`灭菌外观`、`物流储运`、`培训咨询`、`不良事件` 等;可酌情增减,但须**全表多样化**,避免 1000 行几乎同一取值。
- 取值风格统一为**简短中文短语**,勿使用空值占位。
## C 列「单位名称」
- 填写**医疗机构或报告单位**风格的全称(如「××大学附属××医院」「××省人民医院」等)。
- 覆盖**多个省份/城市**,名称不雷同;可混合三甲、肿瘤专科、大学附属医院等,增强分布真实感。
- **勿**使用真实在世的具体科室或个人姓名;机构名可与公开信息风格相近,整体仍为**合成**。
## D 列「事业线」
- 与 **E 列产品名称**严格对应:每条记录的事业线必须是该产品所属业务板块(如输液治疗、透析产品、外科产品、诊断/监测耗材等)。
- 使用**统一、有限**的事业线名称集合,避免同一产品线出现多种写法(如不要同时出现「透析」与「透析产品线」两种未规范写法)。
- 禁止出现与 E 列**明显矛盾**的组合(例如事业线为透析而产品名称为静脉留置针)。
## E 列「产品名称」
- 先检索并整理「贝朗B. Braun在中国境内已上市医疗器械」的**代表性产品清单**(优先依据:国家药监局 NMPA 公开数据、贝朗中国官网/说明书中的产品名、行业常见命名习惯)。
- 若无法保证 100% 与备案/注册信息一致,须在交付说明中明确标注:**「产品名为基于公开信息的归纳与模拟,不用于法规申报」**。
- **只能**使用该清单中的名称1000 条中多个产品按**合理比例**分布(不必均匀,可模拟销量/用量结构,如留置针、输液器占比可高于小众型号)。
## F 列「注册证编号/曾用注册证编号」
- 风格与境内医疗器械注册证号**格式相近**(如 `国械注进20××××××`、`国械注准201××××××` 等),**可为虚构**,不要求与真实证号一一对应。
- 同一产品名称E下可出现**多条不同证号**(曾用证、换证等场景),但须避免全表仅 12 个证号来回复制。
- **禁止**在交付物中声称「本列与 NMPA 公示完全一致」。
## G 列「注册人」
- 填写与**贝朗在华主体**命名风格一致的注册人/备案人名称,例如:`贝朗医疗(上海)国际贸易有限公司`、`贝朗爱敦(上海)医疗管理有限公司`、`贝朗医疗(苏州)有限公司` 等(可从公开信息归纳固定枚举池)。
- 从枚举池中**加权或随机轮换**,避免 1000 行全部为同一字符串。
- 注册人可与 E 列产品线有**常识性对应**(不必逐条严格考证),整体保持可信。
## H 列「型号」
- 与 **E 列具体产品**匹配:每条记录的型号应像该产品在说明书或标签上会出现的规格/型号写法含规格代码、Gauge、容量等
- 同一 E 列产品可对应**多个型号**,在 1000 条中分散出现。
- 避免全表型号重复率过高;**勿**编造与该产品类别完全无关的型号描述。
## I 列「产品批号」
- 模拟生产批号:字母与数字组合(如 `A7382912`、`H9210045`),长度与风格在**合理区间**内波动。
- **每条尽量不同**;允许极低概率的「同批号不同报告」以模拟聚集性,但不应成为主流。
- 不使用明显无效占位(如 `TEST`、`111111` 连续大量出现)。
## J 列「伤害」
- 简明表示是否造成伤害或伤害分级习惯用语,须与真实上报字段定义**在风格上兼容**;常见写法如:`是`、`否`、`不详` 等(若源系统仅有「是/否」,则不要使用三级分类)。
- **必须与 K、L 列逻辑一致**:若 L 为严重器械故障而 K 为重伤表现,则 J 一般不应为「否」;避免三列自相矛盾。
- 作为模拟所有数据J列均为 是。
## K 列「伤害表现」
- 用**简短中文**描述临床表现或患者主诉,与 **J 列**及器械使用场景相符。
- 无伤害时可为「无」或与 J=否 一致的轻描述;有伤害时描述**程度与部位**宜多样化红肿、出血、血肿、低血压、头痛等避免千行同一句话伤害表现应该符合医学术语表达规范如使用WHOART医学术语。
- 措辞偏**临床记录体**,避免小说式长段落。
- 作为模拟,我们需要所有数据都包括 伤害表现。
## L 列「器械故障表现」
- 描述**器械本身**的异常或失效表现,与 **E 列产品类别**强相关(见下节示例维度)。
-**J、K** 形成因果或并列关系合理:如渗漏、堵塞、压力异常、固定失效、裂纹、连接不牢等。
- 同类别产品在句式上**变换同义词与细节**,避免模板化重复。
## M 列「审核日期」
- 落在近 **2436 个月**内的日期范围;优先使用**工作日**(周一至周五),减少全体落在周末的不自然分布。
- Excel 中保存为**日期型**(非纯文本),显示格式可与源表头文件一致(如 `YYYY-MM-DD`)。
- 全表日期应有一定**随机分散**,避免集中为同一天或呈完全规律递增。
# 3. 真实感与「产品—事件」关联(核心,与第 2 节配合)
- **D、E、H** 三位一体:事业线、产品名、型号须为同一叙事下的器械信息。
- **J、K、L** 须与产品类别逻辑一致,例如:
- **输液/输注类**:渗漏、堵塞、流速异常、管路打折/断裂、接头不牢、排气问题等;
- **透析类**:跨膜压/电导度异常、管路渗血渗液、透析器外壳问题、液面异常等;
- **外科/缝线类**:线结滑脱、缝针异常、异物感、固定或粘贴失效等。
- **C 列**可间接体现场景(大型综合医院、肿瘤中心等),与产品使用场景不冲突。
- 避免每条记录使用**完全相同**的 K/L 模板句;在同类别内替换措辞、程度与发现环节。
# 4. 输出
新建 Excel 文件,保存到 **贝朗数据** 文件夹下。
建议文件名:`不良事件数据-模拟1000条-YYYYMMDD.xlsx`(日期为生成当日)。
工作表名仍为 **POWER BI 总信息**;第 1 行为原表头,第 21001 行为数据。
列顺序与列名与源表头文件**完全一致**,便于后续 Power BI 或透视表使用。
# 5. 交付时请用文字简要说明
- 产品清单主要依据哪些公开来源(或说明为归纳模拟)。
- 各事业线/主要产品的大致条数占比。
- **明确声明**:本文件为**合成数据**,不代表现实中的不良事件报告。
---
## 附:文档结构说明(供执行方自检)
| 维度 | 说明 |
|------|------|
| 结构 | 已写明工作表名与 13 个字段及**逐列填充规则**,避免猜列或错位。 |
| E 列 | 要求检索路径 + 无法核验时的声明,降低「虚构产品名却被当作事实」的风险。 |
| 真实性 | 各列规则 + 第 3 节跨列关联,保证 J/K/L 与产品线一致及字段多样化。 |
| 输出 | 固定行数21001、命名规则、路径明确。 |
| 合规 | 强调合成数据用途,避免误用作正式上报。 |