8.6 KiB
8.6 KiB
生成不良事件模拟数据
角色与目标
你是数据分析助手。请根据本地 Excel 表头,生成 1000 条「贝朗(B. Braun)相关产品」的模拟不良事件数据(仅用于内部分析、培训或演示,非真实上报数据),并导出为新的 Excel 文件。
1. 输入文件(必须先读)
路径:贝朗数据/不良事件数据-表头.xlsx(若工作区根目录不同,以用户提供的「贝朗数据」文件夹为准)。
| 列 | 字段名 |
|---|---|
| A | 报告编码 |
| B | CC |
| C | 单位名称 |
| D | 事业线 |
| E | 产品名称 |
| F | 注册证编号/曾用注册证编号 |
| G | 注册人 |
| H | 型号 |
| I | 产品批号 |
| J | 伤害 |
| K | 伤害表现 |
| L | 器械故障表现 |
| M | 审核日期 |
工作表名:POWER BI 总信息(与源文件一致)。
2. 各列填充规则(A–M)
以下规则适用于第 2–1001 行数据行;第 1 行为表头,不得改动列名与列顺序。
A 列「报告编码」
- 1000 条记录互不重复。
- 格式建议:
SIM-年份-6 位序号(如SIM-2024-000001~SIM-2024-001000);若源表头文件中有示例编码,优先与示例风格一致。 - 仅作模拟数据集主键,不代表任何真实上报编号。
B 列「CC」
- 表示投诉/反馈渠道或分类的简短标签(具体含义可按内部分类理解)。
- 从有限枚举池中抽取并轮换使用,例如:
质量反馈、临床使用、包装标识、灭菌外观、物流储运、培训咨询、不良事件等;可酌情增减,但须全表多样化,避免 1000 行几乎同一取值。 - 取值风格统一为简短中文短语,勿使用空值占位。
C 列「单位名称」
- 填写医疗机构或报告单位风格的全称(如「××大学附属××医院」「××省人民医院」等)。
- 覆盖多个省份/城市,名称不雷同;可混合三甲、肿瘤专科、大学附属医院等,增强分布真实感。
- 勿使用真实在世的具体科室或个人姓名;机构名可与公开信息风格相近,整体仍为合成。
D 列「事业线」
- 与 E 列产品名称严格对应:每条记录的事业线必须是该产品所属业务板块(如输液治疗、透析产品、外科产品、诊断/监测耗材等)。
- 使用统一、有限的事业线名称集合,避免同一产品线出现多种写法(如不要同时出现「透析」与「透析产品线」两种未规范写法)。
- 禁止出现与 E 列明显矛盾的组合(例如事业线为透析而产品名称为静脉留置针)。
E 列「产品名称」
- 先检索并整理「贝朗(B. Braun)在中国境内已上市医疗器械」的代表性产品清单(优先依据:国家药监局 NMPA 公开数据、贝朗中国官网/说明书中的产品名、行业常见命名习惯)。
- 若无法保证 100% 与备案/注册信息一致,须在交付说明中明确标注:「产品名为基于公开信息的归纳与模拟,不用于法规申报」。
- 只能使用该清单中的名称;1000 条中多个产品按合理比例分布(不必均匀,可模拟销量/用量结构,如留置针、输液器占比可高于小众型号)。
F 列「注册证编号/曾用注册证编号」
- 风格与境内医疗器械注册证号格式相近(如
国械注进20××××××、国械注准201××××××等),可为虚构,不要求与真实证号一一对应。 - 同一产品名称(E)下可出现多条不同证号(曾用证、换证等场景),但须避免全表仅 1~2 个证号来回复制。
- 禁止在交付物中声称「本列与 NMPA 公示完全一致」。
G 列「注册人」
- 填写与贝朗在华主体命名风格一致的注册人/备案人名称,例如:
贝朗医疗(上海)国际贸易有限公司、贝朗爱敦(上海)医疗管理有限公司、贝朗医疗(苏州)有限公司等(可从公开信息归纳固定枚举池)。 - 从枚举池中加权或随机轮换,避免 1000 行全部为同一字符串。
- 注册人可与 E 列产品线有常识性对应(不必逐条严格考证),整体保持可信。
H 列「型号」
- 与 E 列具体产品匹配:每条记录的型号应像该产品在说明书或标签上会出现的规格/型号写法(含规格代码、Gauge、容量等)。
- 同一 E 列产品可对应多个型号,在 1000 条中分散出现。
- 避免全表型号重复率过高;勿编造与该产品类别完全无关的型号描述。
I 列「产品批号」
- 模拟生产批号:字母与数字组合(如
A7382912、H9210045),长度与风格在合理区间内波动。 - 每条尽量不同;允许极低概率的「同批号不同报告」以模拟聚集性,但不应成为主流。
- 不使用明显无效占位(如
TEST、111111连续大量出现)。
J 列「伤害」
- 简明表示是否造成伤害或伤害分级习惯用语,须与真实上报字段定义在风格上兼容;常见写法如:
是、否、不详等(若源系统仅有「是/否」,则不要使用三级分类)。 - 必须与 K、L 列逻辑一致:若 L 为严重器械故障而 K 为重伤表现,则 J 一般不应为「否」;避免三列自相矛盾。
- 作为模拟,所有数据,J列均为 是。
K 列「伤害表现」
- 用简短中文描述临床表现或患者主诉,与 J 列及器械使用场景相符。
- 无伤害时可为「无」或与 J=否 一致的轻描述;有伤害时描述程度与部位宜多样化(红肿、出血、血肿、低血压、头痛等),避免千行同一句话,伤害表现应该符合医学术语表达规范,如使用WHOART医学术语。
- 措辞偏临床记录体,避免小说式长段落。
- 作为模拟,我们需要所有数据都包括 伤害表现。
L 列「器械故障表现」
- 描述器械本身的异常或失效表现,与 E 列产品类别强相关(见下节示例维度)。
- 与 J、K 形成因果或并列关系合理:如渗漏、堵塞、压力异常、固定失效、裂纹、连接不牢等。
- 同类别产品在句式上变换同义词与细节,避免模板化重复。
M 列「审核日期」
- 落在近 24~36 个月内的日期范围;优先使用工作日(周一至周五),减少全体落在周末的不自然分布。
- Excel 中保存为日期型(非纯文本),显示格式可与源表头文件一致(如
YYYY-MM-DD)。 - 全表日期应有一定随机分散,避免集中为同一天或呈完全规律递增。
3. 真实感与「产品—事件」关联(核心,与第 2 节配合)
- D、E、H 三位一体:事业线、产品名、型号须为同一叙事下的器械信息。
- J、K、L 须与产品类别逻辑一致,例如:
- 输液/输注类:渗漏、堵塞、流速异常、管路打折/断裂、接头不牢、排气问题等;
- 透析类:跨膜压/电导度异常、管路渗血渗液、透析器外壳问题、液面异常等;
- 外科/缝线类:线结滑脱、缝针异常、异物感、固定或粘贴失效等。
- C 列可间接体现场景(大型综合医院、肿瘤中心等),与产品使用场景不冲突。
- 避免每条记录使用完全相同的 K/L 模板句;在同类别内替换措辞、程度与发现环节。
4. 输出
新建 Excel 文件,保存到 贝朗数据 文件夹下。
建议文件名:不良事件数据-模拟1000条-YYYYMMDD.xlsx(日期为生成当日)。
工作表名仍为 POWER BI 总信息;第 1 行为原表头,第 2–1001 行为数据。
列顺序与列名与源表头文件完全一致,便于后续 Power BI 或透视表使用。
5. 交付时请用文字简要说明
- 产品清单主要依据哪些公开来源(或说明为归纳模拟)。
- 各事业线/主要产品的大致条数占比。
- 明确声明:本文件为合成数据,不代表现实中的不良事件报告。
附:文档结构说明(供执行方自检)
| 维度 | 说明 |
|---|---|
| 结构 | 已写明工作表名与 13 个字段及逐列填充规则,避免猜列或错位。 |
| E 列 | 要求检索路径 + 无法核验时的声明,降低「虚构产品名却被当作事实」的风险。 |
| 真实性 | 各列规则 + 第 3 节跨列关联,保证 J/K/L 与产品线一致及字段多样化。 |
| 输出 | 固定行数(2–1001)、命名规则、路径明确。 |
| 合规 | 强调合成数据用途,避免误用作正式上报。 |