Data_Analysis/数据准备过程/模拟数据生成-提示词/生成入院量模拟数据.md

202 lines
7.7 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

生成入院量模拟数据
# 角色与目标
你是数据分析助手。请根据本地 Excel 表头,生成 1000 条「贝朗B. Braun产品在医院端入院/使用相关业务口径」的模拟数据(仅用于内部分析、培训或演示,非真实经营报表数据),并导出为新的 Excel 文件。
# 1. 输入文件(必须先读)
路径:`贝朗数据/入院量-表头.xlsx`(若工作区根目录不同,以用户提供的「贝朗数据」文件夹为准)。
| 列 | 字段名 |
|----|--------|
| A | Year |
| B | Month |
| C | HospitalName |
| D | HospitalCode |
| E | DealerName |
| F | DealerCode |
| G | Province |
| H | City |
| I | GlobalDivision |
| J | LocalDivision |
| K | BU |
| L | ProductLine |
| M | ProductLineType |
| N | Material |
| O | MaterialDesc |
| P | CY Amt |
| Q | LY Amt |
| R | Growth Amt |
| S | Growth% Amt |
| T | CY Qty |
| U | LY Qty |
| V | Growth Qty |
| W | Growth% Qty |
| X | CY LE AMT |
工作表名:`Sheet1`(与源文件一致)。
# 2. 各列填充规则AX
以下规则适用于第 21001 行数据行;第 1 行为表头,不得改动列名与列顺序。
## A 列 `Year`
- 建议取近 23 年(如 `2024`、`2025`、`2026`)的整数年份。
- 与 B 列 `Month` 组合后应形成合理时间分布,避免 1000 条全部落在同一年同一月。
## B 列 `Month`
- 取值范围 `1``12`(整数)。
- 与 A 列匹配,允许季节性波动(如 Q4 数值略高)但不要机械重复。
## C 列 `HospitalName`
- 采用中国境内医院全称风格(如「××大学附属××医院」「××省人民医院」)。
- 与 G/H省/市)保持一致,避免城市与医院明显冲突。
- 全表使用多个医院,避免极端集中到单家医院。
## D 列 `HospitalCode`
-`HospitalName` 的稳定唯一编码(同一医院编码必须一致)。
- 格式建议:`H` + 58 位数字或字母数字组合(如 `H310001`)。
- 不同医院不得复用同一编码。
## E 列 `DealerName`
- 使用经销商/渠道商公司名称风格(如「××医疗器械有限公司」「××医药科技有限公司」)。
- 同一医院可出现多个经销商;同一经销商也可服务多个医院。
## F 列 `DealerCode`
-`DealerName` 的稳定唯一编码(同名同码、异名异码)。
- 格式建议:`D` + 48 位数字(如 `D10258`)。
## G 列 `Province`
- 省级行政区名称(如 `上海市`、`浙江省`、`广东省`)。
- 必须与 H 列 `City` 形成真实的省市归属关系。
## H 列 `City`
- 地级市/直辖市名称(如 `上海市`、`杭州市`、`广州市`)。
- 与 C 列医院所在地、G 列省份一致。
## I 列 `GlobalDivision`
- 使用有限枚举值,建议按全球业务大类,如 `Hospital Care`、`Aesculap`、`Avitum`。
- 与 J/K/L/M 保持层级逻辑一致,不要跨事业部乱配。
## J 列 `LocalDivision`
- 中国本地事业部分组名称(如 `输液治疗`、`外科`、`透析`)。
- 与 I 列映射稳定(同一 LocalDivision 不要映射到多个互斥 GlobalDivision
## K 列 `BU`
- 业务单元名称(如 `IV Therapy BU`、`Renal Care BU`、`Surgical BU`)。
- 与 J/L 保持业务口径一致,避免出现不相关组合。
## L 列 `ProductLine`
- 产品线名称(如 `静脉输注`、`透析耗材`、`缝线与外科耗材`)。
- 与 M/N/O 联动:同一产品线应对应合理的物料与描述。
## M 列 `ProductLineType`
- 产品线子类型(如 `输液器`、`留置针`、`透析器`、`缝线`)。
- 建议作为 L 列的细分层,不可脱离 L 列独立随机。
## N 列 `Material`
- 物料编码,建议使用稳定格式(如 `MAT` + 6 位数字,例 `MAT203145`)。
- 同一 O 列 `MaterialDesc` 对应固定 Material 编码。
- 不同物料编码应可重复出现(代表多月或多医院销售/入院量)。
## O 列 `MaterialDesc`
- 物料中文描述,体现规格和品类信息(如「一次性使用静脉留置针 20G」
- 与 M/N 严格一致,避免一个编码对应多种冲突描述。
## P 列 `CY Amt`
- 当年金额Current Year Amount数值型建议保留 2 位小数。
- 取值必须非负;建议以业务真实感设置在合理范围(如几千到几十万不等)。
## Q 列 `LY Amt`
- 去年同期金额Last Year Amount数值型建议保留 2 位小数。
- 允许部分记录为 0新品/新医院场景),但比例不宜过高(建议 <10%)。
## R 列 `Growth Amt`
- 由公式逻辑生成`Growth Amt = CY Amt - LY Amt`。
- 应与 P/Q 精确一致不可独立随机
## S 列 `Growth% Amt`
- 由公式逻辑生成 `LY Amt > 0` `Growth% Amt = Growth Amt / LY Amt`。
- `LY Amt = 0` 可统一规则为 `0` 或空值且需在交付说明中说明处理口径
- 建议保留 4 位小数或百分比显示格式 `0.1234` 对应 `12.34%`)。
## T 列 `CY Qty`
- 当年数量Current Year Quantity整数型建议 >=0
- 与 P 列金额保持大致单价一致(同一物料单价波动不应过大)。
## U 列 `LY Qty`
- 去年同期数量,整数型(建议 >=0
- 可少量为 0新品导入场景但应与 Q 列口径一致。
## V 列 `Growth Qty`
- 由公式逻辑生成:`Growth Qty = CY Qty - LY Qty`。
- 应与 T/U 严格一致。
## W 列 `Growth% Qty`
- 由公式逻辑生成:当 `LY Qty > 0` 时,`Growth% Qty = Growth Qty / LY Qty`。
-`LY Qty = 0` 时按统一口径处理0 或空值),并在交付说明注明。
## X 列 `CY LE AMT`
- 当年预计金额Latest Estimate Amount数值型建议保留 2 位小数。
- 与 P 列相关但不应完全相同;建议围绕 `CY Amt` 在合理区间波动(如 `0.9x``1.15x`)。
- 禁止出现明显异常值(如负数、极端大值)破坏整体分布。
# 3. 真实感与跨列关联(核心,与第 2 节配合)
- 组织维度关联:`HospitalName/HospitalCode`、`DealerName/DealerCode` 必须一一稳定映射。
- 地理维度关联:`Province/City/HospitalName` 三列一致,不得出现跨省错配。
- 产品维度关联:`GlobalDivision → LocalDivision → BU → ProductLine → ProductLineType → Material → MaterialDesc` 需层级一致。
- 指标维度关联:`Growth Amt` 与 `Growth% Amt` 由金额推导;`Growth Qty` 与 `Growth% Qty` 由数量推导,不能脱离基础值随机填。
- 经营合理性:金额与数量保持可解释的单价区间;避免同一物料在相邻月份出现无理由 10 倍跳变。
# 4. 输出
新建 Excel 文件,保存到 `贝朗数据` 文件夹下。
建议文件名:`入院量数据-模拟1000条-YYYYMMDD.xlsx`(日期为生成当日)。
工作表名仍为 `Sheet1`;第 1 行为原表头,第 21001 行为数据。
列顺序与列名与源表头文件完全一致,便于后续 Power BI 或透视分析使用。
# 5. 交付时请用文字简要说明
- 组织维度(医院、经销商)与产品维度(事业部、产品线、物料)的生成口径。
- 金额/数量及增长率字段的计算口径(尤其 LY=0 时的处理规则)。
- 各年度、主要产品线、主要省份的数据占比概览。
- 明确声明:本文件为合成数据,不代表真实业务入院量或销售数据。
---
## 附:执行自检清单
| 检查项 | 合格标准 |
|------|------|
| 行数 | 总行数为 1001含表头数据行 1000。 |
| 列结构 | 24 列列名与顺序与 `入院量-表头.xlsx` 完全一致。 |
| 编码一致性 | 同一医院/经销商/物料名称对应唯一编码,不发生混码。 |
| 计算一致性 | R/S/V/W 与 P/Q/T/U 计算逻辑一致,无公式冲突。 |
| 业务合理性 | 省市医院匹配、产品层级匹配、金额数量分布无明显异常。 |