147 lines
8.6 KiB
Markdown
147 lines
8.6 KiB
Markdown
生成不良事件模拟数据
|
||
|
||
# 角色与目标
|
||
|
||
你是数据分析助手。请根据本地 Excel 表头,生成 1000 条「贝朗(B. Braun)相关产品」的模拟不良事件数据(仅用于内部分析、培训或演示,非真实上报数据),并导出为新的 Excel 文件。
|
||
|
||
# 1. 输入文件(必须先读)
|
||
|
||
路径:贝朗数据/不良事件数据-表头.xlsx(若工作区根目录不同,以用户提供的「贝朗数据」文件夹为准)。
|
||
|
||
| 列 | 字段名 |
|
||
|----|--------|
|
||
| A | 报告编码 |
|
||
| B | CC |
|
||
| C | 单位名称 |
|
||
| D | 事业线 |
|
||
| E | 产品名称 |
|
||
| F | 注册证编号/曾用注册证编号 |
|
||
| G | 注册人 |
|
||
| H | 型号 |
|
||
| I | 产品批号 |
|
||
| J | 伤害 |
|
||
| K | 伤害表现 |
|
||
| L | 器械故障表现 |
|
||
| M | 审核日期 |
|
||
|
||
工作表名:**POWER BI 总信息**(与源文件一致)。
|
||
|
||
# 2. 各列填充规则(A–M)
|
||
|
||
以下规则适用于第 2–1001 行数据行;第 1 行为表头,不得改动列名与列顺序。
|
||
|
||
## A 列「报告编码」
|
||
|
||
- 1000 条记录**互不重复**。
|
||
- 格式建议:`SIM-年份-6 位序号`(如 `SIM-2024-000001`~`SIM-2024-001000`);若源表头文件中有示例编码,优先与示例**风格一致**。
|
||
- 仅作模拟数据集主键,**不代表**任何真实上报编号。
|
||
|
||
## B 列「CC」
|
||
|
||
- 表示投诉/反馈渠道或分类的简短标签(具体含义可按内部分类理解)。
|
||
- 从有限**枚举池**中抽取并轮换使用,例如:`质量反馈`、`临床使用`、`包装标识`、`灭菌外观`、`物流储运`、`培训咨询`、`不良事件` 等;可酌情增减,但须**全表多样化**,避免 1000 行几乎同一取值。
|
||
- 取值风格统一为**简短中文短语**,勿使用空值占位。
|
||
|
||
## C 列「单位名称」
|
||
|
||
- 填写**医疗机构或报告单位**风格的全称(如「××大学附属××医院」「××省人民医院」等)。
|
||
- 覆盖**多个省份/城市**,名称不雷同;可混合三甲、肿瘤专科、大学附属医院等,增强分布真实感。
|
||
- **勿**使用真实在世的具体科室或个人姓名;机构名可与公开信息风格相近,整体仍为**合成**。
|
||
|
||
## D 列「事业线」
|
||
|
||
- 与 **E 列产品名称**严格对应:每条记录的事业线必须是该产品所属业务板块(如输液治疗、透析产品、外科产品、诊断/监测耗材等)。
|
||
- 使用**统一、有限**的事业线名称集合,避免同一产品线出现多种写法(如不要同时出现「透析」与「透析产品线」两种未规范写法)。
|
||
- 禁止出现与 E 列**明显矛盾**的组合(例如事业线为透析而产品名称为静脉留置针)。
|
||
|
||
## E 列「产品名称」
|
||
|
||
- 先检索并整理「贝朗(B. Braun)在中国境内已上市医疗器械」的**代表性产品清单**(优先依据:国家药监局 NMPA 公开数据、贝朗中国官网/说明书中的产品名、行业常见命名习惯)。
|
||
- 若无法保证 100% 与备案/注册信息一致,须在交付说明中明确标注:**「产品名为基于公开信息的归纳与模拟,不用于法规申报」**。
|
||
- **只能**使用该清单中的名称;1000 条中多个产品按**合理比例**分布(不必均匀,可模拟销量/用量结构,如留置针、输液器占比可高于小众型号)。
|
||
|
||
## F 列「注册证编号/曾用注册证编号」
|
||
|
||
- 风格与境内医疗器械注册证号**格式相近**(如 `国械注进20××××××`、`国械注准201××××××` 等),**可为虚构**,不要求与真实证号一一对应。
|
||
- 同一产品名称(E)下可出现**多条不同证号**(曾用证、换证等场景),但须避免全表仅 1~2 个证号来回复制。
|
||
- **禁止**在交付物中声称「本列与 NMPA 公示完全一致」。
|
||
|
||
## G 列「注册人」
|
||
|
||
- 填写与**贝朗在华主体**命名风格一致的注册人/备案人名称,例如:`贝朗医疗(上海)国际贸易有限公司`、`贝朗爱敦(上海)医疗管理有限公司`、`贝朗医疗(苏州)有限公司` 等(可从公开信息归纳固定枚举池)。
|
||
- 从枚举池中**加权或随机轮换**,避免 1000 行全部为同一字符串。
|
||
- 注册人可与 E 列产品线有**常识性对应**(不必逐条严格考证),整体保持可信。
|
||
|
||
## H 列「型号」
|
||
|
||
- 与 **E 列具体产品**匹配:每条记录的型号应像该产品在说明书或标签上会出现的规格/型号写法(含规格代码、Gauge、容量等)。
|
||
- 同一 E 列产品可对应**多个型号**,在 1000 条中分散出现。
|
||
- 避免全表型号重复率过高;**勿**编造与该产品类别完全无关的型号描述。
|
||
|
||
## I 列「产品批号」
|
||
|
||
- 模拟生产批号:字母与数字组合(如 `A7382912`、`H9210045`),长度与风格在**合理区间**内波动。
|
||
- **每条尽量不同**;允许极低概率的「同批号不同报告」以模拟聚集性,但不应成为主流。
|
||
- 不使用明显无效占位(如 `TEST`、`111111` 连续大量出现)。
|
||
|
||
## J 列「伤害」
|
||
|
||
- 简明表示是否造成伤害或伤害分级习惯用语,须与真实上报字段定义**在风格上兼容**;常见写法如:`是`、`否`、`不详` 等(若源系统仅有「是/否」,则不要使用三级分类)。
|
||
- **必须与 K、L 列逻辑一致**:若 L 为严重器械故障而 K 为重伤表现,则 J 一般不应为「否」;避免三列自相矛盾。
|
||
- 作为模拟,所有数据,J列均为 是。
|
||
|
||
## K 列「伤害表现」
|
||
|
||
- 用**简短中文**描述临床表现或患者主诉,与 **J 列**及器械使用场景相符。
|
||
- 无伤害时可为「无」或与 J=否 一致的轻描述;有伤害时描述**程度与部位**宜多样化(红肿、出血、血肿、低血压、头痛等),避免千行同一句话,伤害表现应该符合医学术语表达规范,如使用WHOART医学术语。
|
||
- 措辞偏**临床记录体**,避免小说式长段落。
|
||
- 作为模拟,我们需要所有数据都包括 伤害表现。
|
||
|
||
|
||
## L 列「器械故障表现」
|
||
|
||
- 描述**器械本身**的异常或失效表现,与 **E 列产品类别**强相关(见下节示例维度)。
|
||
- 与 **J、K** 形成因果或并列关系合理:如渗漏、堵塞、压力异常、固定失效、裂纹、连接不牢等。
|
||
- 同类别产品在句式上**变换同义词与细节**,避免模板化重复。
|
||
|
||
## M 列「审核日期」
|
||
|
||
- 落在近 **24~36 个月**内的日期范围;优先使用**工作日**(周一至周五),减少全体落在周末的不自然分布。
|
||
- Excel 中保存为**日期型**(非纯文本),显示格式可与源表头文件一致(如 `YYYY-MM-DD`)。
|
||
- 全表日期应有一定**随机分散**,避免集中为同一天或呈完全规律递增。
|
||
|
||
# 3. 真实感与「产品—事件」关联(核心,与第 2 节配合)
|
||
|
||
- **D、E、H** 三位一体:事业线、产品名、型号须为同一叙事下的器械信息。
|
||
- **J、K、L** 须与产品类别逻辑一致,例如:
|
||
- **输液/输注类**:渗漏、堵塞、流速异常、管路打折/断裂、接头不牢、排气问题等;
|
||
- **透析类**:跨膜压/电导度异常、管路渗血渗液、透析器外壳问题、液面异常等;
|
||
- **外科/缝线类**:线结滑脱、缝针异常、异物感、固定或粘贴失效等。
|
||
- **C 列**可间接体现场景(大型综合医院、肿瘤中心等),与产品使用场景不冲突。
|
||
- 避免每条记录使用**完全相同**的 K/L 模板句;在同类别内替换措辞、程度与发现环节。
|
||
|
||
# 4. 输出
|
||
|
||
新建 Excel 文件,保存到 **贝朗数据** 文件夹下。
|
||
建议文件名:`不良事件数据-模拟1000条-YYYYMMDD.xlsx`(日期为生成当日)。
|
||
工作表名仍为 **POWER BI 总信息**;第 1 行为原表头,第 2–1001 行为数据。
|
||
列顺序与列名与源表头文件**完全一致**,便于后续 Power BI 或透视表使用。
|
||
|
||
# 5. 交付时请用文字简要说明
|
||
|
||
- 产品清单主要依据哪些公开来源(或说明为归纳模拟)。
|
||
- 各事业线/主要产品的大致条数占比。
|
||
- **明确声明**:本文件为**合成数据**,不代表现实中的不良事件报告。
|
||
|
||
---
|
||
|
||
## 附:文档结构说明(供执行方自检)
|
||
|
||
| 维度 | 说明 |
|
||
|------|------|
|
||
| 结构 | 已写明工作表名与 13 个字段及**逐列填充规则**,避免猜列或错位。 |
|
||
| E 列 | 要求检索路径 + 无法核验时的声明,降低「虚构产品名却被当作事实」的风险。 |
|
||
| 真实性 | 各列规则 + 第 3 节跨列关联,保证 J/K/L 与产品线一致及字段多样化。 |
|
||
| 输出 | 固定行数(2–1001)、命名规则、路径明确。 |
|
||
| 合规 | 强调合成数据用途,避免误用作正式上报。 |
|