Data_Analysis/数据准备过程/模拟数据生成-提示词/生成入院量模拟数据.md

7.7 KiB
Raw Blame History

生成入院量模拟数据

角色与目标

你是数据分析助手。请根据本地 Excel 表头,生成 1000 条「贝朗B. Braun产品在医院端入院/使用相关业务口径」的模拟数据(仅用于内部分析、培训或演示,非真实经营报表数据),并导出为新的 Excel 文件。

1. 输入文件(必须先读)

路径:贝朗数据/入院量-表头.xlsx(若工作区根目录不同,以用户提供的「贝朗数据」文件夹为准)。

字段名
A Year
B Month
C HospitalName
D HospitalCode
E DealerName
F DealerCode
G Province
H City
I GlobalDivision
J LocalDivision
K BU
L ProductLine
M ProductLineType
N Material
O MaterialDesc
P CY Amt
Q LY Amt
R Growth Amt
S Growth% Amt
T CY Qty
U LY Qty
V Growth Qty
W Growth% Qty
X CY LE AMT

工作表名:Sheet1(与源文件一致)。

2. 各列填充规则AX

以下规则适用于第 21001 行数据行;第 1 行为表头,不得改动列名与列顺序。

A 列 Year

  • 建议取近 23 年(如 202420252026)的整数年份。
  • 与 B 列 Month 组合后应形成合理时间分布,避免 1000 条全部落在同一年同一月。

B 列 Month

  • 取值范围 112(整数)。
  • 与 A 列匹配,允许季节性波动(如 Q4 数值略高)但不要机械重复。

C 列 HospitalName

  • 采用中国境内医院全称风格(如「××大学附属××医院」「××省人民医院」)。
  • 与 G/H省/市)保持一致,避免城市与医院明显冲突。
  • 全表使用多个医院,避免极端集中到单家医院。

D 列 HospitalCode

  • HospitalName 的稳定唯一编码(同一医院编码必须一致)。
  • 格式建议:H + 58 位数字或字母数字组合(如 H310001)。
  • 不同医院不得复用同一编码。

E 列 DealerName

  • 使用经销商/渠道商公司名称风格(如「××医疗器械有限公司」「××医药科技有限公司」)。
  • 同一医院可出现多个经销商;同一经销商也可服务多个医院。

F 列 DealerCode

  • DealerName 的稳定唯一编码(同名同码、异名异码)。
  • 格式建议:D + 48 位数字(如 D10258)。

G 列 Province

  • 省级行政区名称(如 上海市浙江省广东省)。
  • 必须与 H 列 City 形成真实的省市归属关系。

H 列 City

  • 地级市/直辖市名称(如 上海市杭州市广州市)。
  • 与 C 列医院所在地、G 列省份一致。

I 列 GlobalDivision

  • 使用有限枚举值,建议按全球业务大类,如 Hospital CareAesculapAvitum
  • 与 J/K/L/M 保持层级逻辑一致,不要跨事业部乱配。

J 列 LocalDivision

  • 中国本地事业部分组名称(如 输液治疗外科透析)。
  • 与 I 列映射稳定(同一 LocalDivision 不要映射到多个互斥 GlobalDivision

K 列 BU

  • 业务单元名称(如 IV Therapy BURenal Care BUSurgical BU)。
  • 与 J/L 保持业务口径一致,避免出现不相关组合。

L 列 ProductLine

  • 产品线名称(如 静脉输注透析耗材缝线与外科耗材)。
  • 与 M/N/O 联动:同一产品线应对应合理的物料与描述。

M 列 ProductLineType

  • 产品线子类型(如 输液器留置针透析器缝线)。
  • 建议作为 L 列的细分层,不可脱离 L 列独立随机。

N 列 Material

  • 物料编码,建议使用稳定格式(如 MAT + 6 位数字,例 MAT203145)。
  • 同一 O 列 MaterialDesc 对应固定 Material 编码。
  • 不同物料编码应可重复出现(代表多月或多医院销售/入院量)。

O 列 MaterialDesc

  • 物料中文描述,体现规格和品类信息(如「一次性使用静脉留置针 20G」
  • 与 M/N 严格一致,避免一个编码对应多种冲突描述。

P 列 CY Amt

  • 当年金额Current Year Amount数值型建议保留 2 位小数。
  • 取值必须非负;建议以业务真实感设置在合理范围(如几千到几十万不等)。

Q 列 LY Amt

  • 去年同期金额Last Year Amount数值型建议保留 2 位小数。
  • 允许部分记录为 0新品/新医院场景),但比例不宜过高(建议 <10%)。

R 列 Growth Amt

  • 由公式逻辑生成:Growth Amt = CY Amt - LY Amt
  • 应与 P/Q 精确一致,不可独立随机。

S 列 Growth% Amt

  • 由公式逻辑生成:当 LY Amt > 0 时,Growth% Amt = Growth Amt / LY Amt
  • LY Amt = 0 时,可统一规则为 0 或空值,且需在交付说明中说明处理口径。
  • 建议保留 4 位小数或百分比显示格式(如 0.1234 对应 12.34%)。

T 列 CY Qty

  • 当年数量Current Year Quantity整数型建议 >=0
  • 与 P 列金额保持大致单价一致(同一物料单价波动不应过大)。

U 列 LY Qty

  • 去年同期数量,整数型(建议 >=0
  • 可少量为 0新品导入场景但应与 Q 列口径一致。

V 列 Growth Qty

  • 由公式逻辑生成:Growth Qty = CY Qty - LY Qty
  • 应与 T/U 严格一致。

W 列 Growth% Qty

  • 由公式逻辑生成:当 LY Qty > 0 时,Growth% Qty = Growth Qty / LY Qty
  • LY Qty = 0 时按统一口径处理0 或空值),并在交付说明注明。

X 列 CY LE AMT

  • 当年预计金额Latest Estimate Amount数值型建议保留 2 位小数。
  • 与 P 列相关但不应完全相同;建议围绕 CY Amt 在合理区间波动(如 0.9x1.15x)。
  • 禁止出现明显异常值(如负数、极端大值)破坏整体分布。

3. 真实感与跨列关联(核心,与第 2 节配合)

  • 组织维度关联:HospitalName/HospitalCodeDealerName/DealerCode 必须一一稳定映射。
  • 地理维度关联:Province/City/HospitalName 三列一致,不得出现跨省错配。
  • 产品维度关联:GlobalDivision → LocalDivision → BU → ProductLine → ProductLineType → Material → MaterialDesc 需层级一致。
  • 指标维度关联:Growth AmtGrowth% Amt 由金额推导;Growth QtyGrowth% Qty 由数量推导,不能脱离基础值随机填。
  • 经营合理性:金额与数量保持可解释的单价区间;避免同一物料在相邻月份出现无理由 10 倍跳变。

4. 输出

新建 Excel 文件,保存到 贝朗数据 文件夹下。
建议文件名:入院量数据-模拟1000条-YYYYMMDD.xlsx(日期为生成当日)。
工作表名仍为 Sheet1;第 1 行为原表头,第 21001 行为数据。
列顺序与列名与源表头文件完全一致,便于后续 Power BI 或透视分析使用。

5. 交付时请用文字简要说明

  • 组织维度(医院、经销商)与产品维度(事业部、产品线、物料)的生成口径。
  • 金额/数量及增长率字段的计算口径(尤其 LY=0 时的处理规则)。
  • 各年度、主要产品线、主要省份的数据占比概览。
  • 明确声明:本文件为合成数据,不代表真实业务入院量或销售数据。

附:执行自检清单

检查项 合格标准
行数 总行数为 1001含表头数据行 1000。
列结构 24 列列名与顺序与 入院量-表头.xlsx 完全一致。
编码一致性 同一医院/经销商/物料名称对应唯一编码,不发生混码。
计算一致性 R/S/V/W 与 P/Q/T/U 计算逻辑一致,无公式冲突。
业务合理性 省市医院匹配、产品层级匹配、金额数量分布无明显异常。