模块 08 · 影响分析
影响分析是 Observable Ops 的「正向扩散引擎」——从故障节点出发,沿拓扑正向传播,计算故障的下游影响范围、业务损失估算和恢复时间预测,为智能决策提供 Impact 维度输入。
📑 目录
章节导航
- 模块定位与职责
- 影响分析模型
- 核心功能分解
- API 设计规范
- 数据流架构
- 模块协作关系
- 量化指标体系
- 部署架构
- 本章小结
1. 模块定位与职责
1.1 在 4 层架构中的位置
影响分析属于能力层核心模块,从根因分析模块接收故障节点信息,结合拓扑建模的图结构,输出影响范围报告到智能决策和 Dashboard。
flowchart LR
subgraph 数据层["数据层 Data Layer"]
T[02 拓扑建模]
end
subgraph 能力层["能力层 Capability Layer"]
RCA[07 根因分析]
IA[08 影响分析]
ID[09 智能决策]
DASH[Dashboard]
end
RCA -->|故障节点| IA
T -->|拓扑图谱| IA
IA -->|影响范围报告| ID
IA -->|业务损失估算| DASH
style IA fill:#fff9c4,stroke:#f9a825,stroke-width:3px
style 数据层 fill:#fff9c4,stroke:#f9a825,stroke-width:2px
style 能力层 fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
style RCA fill:#c8e6c9
style ID fill:#c8e6c9
style DASH fill:#c8e6c9
style T fill:#fff9c4
1.2 核心职责
| 职责 |
描述 |
输出 |
| 正向传播计算 |
从故障节点出发,沿拓扑正向(调用方向)计算下游影响范围 |
影响节点列表 |
| 业务影响评分 |
根据业务重要性对受影响节点打分(核心业务 vs 非核心) |
Business Impact Score |
| 级联故障预测 |
预测故障是否会引发级联扩散,估算扩散速度和范围 |
Cascade Forecast |
| 恢复时间估算 |
基于故障类型和影响范围,估算 MTTR(Mean Time To Repair) |
MTTR Estimate |
| 业务损失评估 |
将影响范围映射到业务指标(订单量/用户量/收入)损失 |
Business Loss Report |
1.3 核心设计原则
flowchart LR
P1[Forward Prop
正向传播] --> P2[Business First
业务优先]
P2 --> P3[Cascade Aware
级联感知]
P3 --> P4[Time Sensitive
时间敏感]
P4 -.-> P1
style P1 fill:#e3f2fd,stroke:#1976d2,stroke-width:3px
style P2 fill:#fff9c4,stroke:#f9a825,stroke-width:3px
style P3 fill:#fce4ec,stroke:#c62828,stroke-width:3px
style P4 fill:#e8f5e9,stroke:#388e3c,stroke-width:3px
- 正向传播(Forward Prop):从故障节点沿调用链向下游扩散,与根因分析的逆向传播互补
- 业务优先(Business First):影响分析以业务损失为导向,而非纯技术节点数
- 级联感知(Cascade Aware):预测故障是否会引发二次、三次扩散,提前预警
- 时间敏感(Time Sensitive):恢复时间估算必须考虑时间成本,业务损失随时间累积
1.4 子模块划分
| 子模块 |
职责 |
技术选型 |
| Propagator 正向传播引擎 |
从故障节点沿 CALLS 边向下游遍历,计算影响范围 |
Python / Neo4j GDS |
| BusinessScorer 业务评分器 |
根据业务重要性权重,计算业务影响得分 |
Python / 加权评分模型 |
| CascadePredictor 级联预测器 |
预测故障扩散概率、速度、范围 |
Python / PyTorch / 时序模型 |
| RecoveryEstimator 恢复时间估算器 |
基于故障类型和历史数据估算 MTTR |
Python / XGBoost |
| LossEvaluator 业务损失评估器 |
将技术影响映射为业务指标损失 |
Python / 业务模型 |
2. 影响分析模型
2.1 影响范围模型(Impact Scope Model)
影响范围模型描述从故障节点出发能够影响到的所有下游节点及其层级关系。
2.1.1 影响节点
| 字段 |
类型 |
说明 |
示例 |
node_id |
String |
受影响的拓扑节点 ID |
svc-004 |
node_name |
String |
受影响节点名称 |
order-service |
label |
String |
节点类型标签 |
Service |
impact_level |
Integer [1-5] |
影响层级(1=直接邻居,2=2跳,依此类推) |
2 |
impact_score |
Float [0-1] |
影响得分(综合业务重要性和传播概率) |
0.75 |
is_critical |
Boolean |
是否为核心业务节点 |
true |
propagation_probability |
Float [0-1] |
该节点实际被影响的概率 |
0.85 |
estimated_recovery_time_min |
Integer |
该节点恢复预计所需时间(分钟) |
15 |
2.1.2 影响范围汇总
| 字段 |
类型 |
说明 |
incident_id |
String |
关联的故障事件 ID |
fault_node_id |
String |
故障节点 ID |
total_affected |
Integer |
受影响节点总数 |
by_label |
Map[String, Integer] |
按标签类型统计受影响节点数 |
by_impact_level |
Map[Integer, Integer] |
按层级统计受影响节点数 |
critical_count |
Integer |
核心业务节点受影响数量 |
max_propagation_depth |
Integer |
最大传播深度(跳数) |
2.2 业务关键性评分模型(Business Criticality Score)
业务关键性评分衡量节点对业务的重要性,用于计算业务损失权重。
flowchart TB
subgraph 评分因素["评分因素"]
F1[业务层级
tier_weight]
F2[用户量
user_weight]
F3[收入影响
revenue_weight]
F4[SLA 要求
sla_weight]
F5[可替代性
替代性越低权重越高]
end
subgraph 模型["加权融合"]
W[权重配置]
CALC[Score = Σ wi*fi]
end
subgraph 输出["业务关键性评分"]
BCS[Business Criticality Score
0.0 ~ 1.0]
end
F1 --> W
F2 --> W
F3 --> W
F4 --> W
F5 --> W
W --> CALC --> BCS
style W fill:#fff9c4,stroke:#f9a825,stroke-width:2px
style CALC fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
style BCS fill:#c8e6c9,stroke:#388e3c,stroke-width:3px
2.2.1 评分维度说明
| 维度 |
计算方式 |
权重(默认) |
数据来源 |
| 业务层级 |
P0=1.0, P1=0.8, P2=0.6, P3=0.4, P4=0.2 |
0.30 |
CMDB / 业务台账 |
| 用户量 |
日活用户数归一化到 [0,1] |
0.25 |
业务系统埋点 |
| 收入影响 |
每分钟停机损失金额归一化 |
0.25 |
财务系统估算 |
| SLA 要求 |
99.99%=1.0, 99.9%=0.8, 99%=0.6 |
0.15 |
合同/SLA 文档 |
| 可替代性 |
无替代=1.0, 低替代=0.7, 中替代=0.4, 高替代=0.1 |
0.05 |
架构评审文档 |
2.3 恢复时间估算模型(MTTR Estimation Model)
| 字段 |
类型 |
说明 |
fault_type |
Enum |
故障类型:硬件故障/软件崩溃/网络中断/配置错误/容量不足 |
fault_node_type |
Enum |
故障节点类型:Host/Middleware/Service/Database |
estimated_mttr_min |
Integer |
预计恢复时间(分钟) |
confidence |
Float [0-1] |
估算置信度 |
factors |
List[String] |
影响恢复时间的关键因素 |
historical_avg_min |
Integer |
同类故障历史平均恢复时间 |
3. 核心功能分解
3.1 正向传播(Forward Propagation)
3.1.1 传播算法流程
- 接收故障节点:从根因分析模块接收故障节点 ID 和故障类型
- 初始化传播队列:将故障节点作为 Level 0 加入队列
- 逐层扩散:沿 CALLS/ACCESSES 边的正向(下游)方向扩散
- 计算传播概率:每条边根据边类型计算向下游传播的概率
- 累计业务影响:每层扩散时累计业务损失
- 级联判断:当某节点影响得分超过阈值时,触发下一层扩散
- 输出影响范围:汇总所有受影响节点及其层级
flowchart LR
subgraph 输入["输入:故障节点"]
FN[故障节点: svc-001]
end
subgraph 正向传播["正向传播引擎"]
Q[传播队列]
EXP[Expand: 获取下游邻居]
PROB[计算传播概率]
CASC[级联判断]
STOP[停止条件]
end
subgraph 输出["输出:影响范围"]
SCOPE[影响节点列表]
SUMMARY[影响范围汇总]
METRICS[业务损失指标]
end
FN --> Q --> EXP --> PROB --> CASC --> STOP --> SCOPE
EXP -->|扩散下一跳| Q
STOP --> SUMMARY
STOP --> METRICS
style 正向传播 fill:#fff9c4,stroke:#f9a825,stroke-width:2px
style 输入 fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
style 输出 fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
3.1.2 传播方向与边类型
| 边类型 |
传播方向 |
传播概率(默认) |
说明 |
CALLS |
A → B(A 故障影响 B) |
0.9(强传播) |
服务调用链直接传播 |
ACCESSES |
A → DB(A 故障可能导致 DB 负载异常) |
0.7(中等传播) |
数据库连接池耗尽场景 |
SUBSCRIBES |
Topic → Consumer(Topic 故障影响消费者) |
0.6 |
消息队列故障传播 |
DEPLOYED_ON |
Host → Service(Host 故障影响所有部署的服务) |
0.95(极高传播) |
基础设施故障强影响 |
NETWORK_TO |
A → B(A 故障可能导致 B 网络不可达) |
0.3(弱传播) |
网络故障传播 |
3.2 业务影响评分(Business Impact Scoring)
3.2.1 评分流程
- 节点关键性评分:对每个受影响节点计算业务关键性评分
- 传播概率加权:乘以该节点被实际影响的概率
- 层级衰减:Level 1 × 1.0,Level 2 × 0.8,Level 3 × 0.6(逐层衰减)
- 汇总输出:汇总所有受影响节点的业务影响总分
3.2.2 业务影响分级
| 等级 |
分数范围 |
说明 |
决策优先级 |
| P0 - 灾难级 |
> 0.9 |
核心业务完全中断,影响收入 > 100万/分钟 |
立即处理,CEO 关注 |
| P1 - 严重级 |
0.7 - 0.9 |
主要业务受损,影响收入 10-100万/分钟 |
15分钟内处理 |
| P2 - 较大级 |
0.5 - 0.7 |
部分业务降级,影响用户体验 |
30分钟内处理 |
| P3 - 一般级 |
0.3 - 0.5 |
非核心功能受影响 |
2小时内处理 |
| P4 - 轻微级 |
< 0.3 |
几乎无业务影响 |
按计划处理 |
3.3 级联故障预测(Cascade Failure Prediction)
3.3.1 级联触发条件
| 条件 |
阈值 |
说明 |
| 单节点故障率 |
> 80% |
节点本身故障概率超过阈值 |
| 依赖度 |
> 0.9 |
下游节点对该节点的依赖度超过 90% |
| 容量阈值 |
> 95% |
下游节点资源容量使用率超过 95% |
| 时序窗口 |
< 5min |
上游故障到下游异常的时序间隔小于 5 分钟 |
3.3.2 级联预测输出
{
"cascade_risk": "HIGH",
"predicted_cascade_nodes": ["svc-004", "svc-005", "db-002"],
"predicted_cascade_depth": 3,
"estimated_cascade_time_min": 8,
"confidence": 0.82,
"recommendation": "建议立即扩容 svc-004 以阻止级联扩散"
}
3.4 恢复时间估算(Recovery Time Estimation)
3.4.1 估算逻辑
flowchart TB
subgraph 输入["输入特征"]
FT[fault_type]
FN[fault_node_type]
HA[historical_avg]
CF[current_failure_count]
end
subgraph 模型["MTTR 估算模型"]
ML[XGBoost 模型]
end
subgraph 输出["估算结果"]
EST[MTTR 估算值]
CI[置信区间]
REC[恢复建议]
end
FT --> ML
FN --> ML
HA --> ML
CF --> ML
ML --> EST --> CI
ML --> REC
style ML fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
style EST fill:#c8e6c9,stroke:#388e3c,stroke-width:3px
3.4.2 历史数据基准
| 故障类型 |
节点类型 |
历史平均 MTTR |
基准来源 |
| 硬件故障 |
Host |
45 分钟 |
过去 6 个月数据 |
| 软件崩溃 |
Service |
8 分钟 |
过去 6 个月数据 |
| 网络中断 |
NetworkDevice |
20 分钟 |
过去 6 个月数据 |
| 配置错误 |
Middleware |
5 分钟 |
过去 6 个月数据 |
| 容量不足 |
Database |
15 分钟 |
过去 6 个月数据 |
4. API 设计规范
4.1 REST API(同步查询)
| 方法 |
路径 |
描述 |
请求体 |
响应 |
| POST |
/api/v1/impact/analyze |
发起影响分析任务 |
FaultContext |
ImpactReport |
| GET |
/api/v1/impact/report/{incident_id} |
查询影响范围报告 |
—— |
ImpactReport |
| GET |
/api/v1/impact/scope/{node_id} |
查询节点的影响范围 |
?depth=3&include_critical=true |
ImpactScope |
| GET |
/api/v1/impact/cascade/{incident_id} |
查询级联故障预测 |
—— |
CascadeForecast |
| GET |
/api/v1/impact/mttr/{incident_id} |
查询 MTTR 估算 |
—— |
MTTREstimate |
| GET |
/api/v1/impact/business-loss/{incident_id} |
查询业务损失估算 |
—— |
BusinessLossReport |
| GET |
/api/v1/impact/critical-nodes |
查询所有核心业务节点列表 |
—— |
CriticalNode[] |
4.2 gRPC API(高性能场景)
| 服务 |
方法 |
适用场景 |
性能要求 |
ImpactService |
ComputeImpactScope(ImpactRequest) |
实时影响范围计算(根因分析触发) |
P99 < 500ms |
ImpactService |
PredictCascade(CascadeRequest) |
级联故障预测 |
P99 < 1s |
ImpactService |
StreamImpactUpdate(StreamRequest) |
流式推送影响范围更新 |
< 100ms 延迟 |
4.3 Kafka 事件(异步通知)
| Topic |
事件类型 |
发布者 |
订阅者 |
说明 |
impact.report.completed |
影响分析报告完成 |
影响分析模块 |
智能决策/Dashboard |
推送影响范围到下游 |
impact.cascade.alert |
级联故障预警 |
影响分析模块 |
告警系统/值班人员 |
级联风险超过阈值时发布 |
impact.business-loss.updated |
业务损失更新 |
影响分析模块 |
Dashboard(实时更新) |
业务损失随时间累积推送 |
4.4 API 质量指标
| 指标 |
SLO 目标 |
告警阈值 |
说明 |
| P99 延迟 |
< 500ms |
> 1s |
影响范围计算完成时间 |
| 影响范围准确率 |
> 90% |
< 80% |
预测影响节点与实际受影响节点重合率 |
| MTTR 估算准确率 |
> 85% |
< 75% |
MTTR 估算值与实际恢复时间偏差 < 20% |
| 可用率 |
99.9% |
< 99.5% |
月度可用率 |
5. 数据流架构
5.1 整体数据流
flowchart LR
subgraph 输入["输入数据源"]
RCA[07 根因分析
故障节点]
T[02 拓扑建模
拓扑图谱]
BM[业务模型
业务权重]
end
subgraph 处理["影响分析处理管道"]
PROP[正向传播引擎
Propagator]
BSCORE[业务评分器
Business Scorer]
CASCADE[级联预测器
Cascade Predictor]
MTTR[恢复时间估算器
Recovery Estimator]
LOSS[业务损失评估器
Loss Evaluator]
end
subgraph 输出["输出"]
IREPORT[影响范围报告
智能决策]
CFORECAST[级联预测
告警系统]
BLOSS[业务损失
Dashboard]
MTTRR[MTTR 估算
Dashboard]
end
RCA --> PROP
T --> PROP
PROP --> BSCORE
BSCORE --> IREPORT
PROP --> CASCADE --> CFORECAST
T --> MTTR --> MTTRR
BSCORE --> LOSS --> BLOSS
style 处理 fill:#fff9c4,stroke:#f9a825,stroke-width:2px
style 输入 fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
style 输出 fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
5.2 影响分析流程
flowchart TB
subgraph Step1["Step 1: 接收故障上下文"]
R1[接收故障节点
root_cause_node]
end
subgraph Step2["Step 2: 正向传播计算"]
R2[初始化传播队列]
R3[逐层扩散,
计算传播概率]
R4[达到最大深度或
传播概率 < 阈值停止]
end
subgraph Step3["Step 3: 业务评分"]
R5[计算每个受影响节点的
业务关键性评分]
R6[计算传播概率加权后的
业务影响得分]
R7[按影响等级分类]
end
subgraph Step4["Step 4: 级联预测"]
R8[判断级联触发条件]
R9[预测级联扩散节点和深度]
end
subgraph Step5["Step 5: 损失估算"]
R10[估算 MTTR]
R11[计算业务损失金额]
R12[生成影响报告]
end
R1 --> R2 --> R3 --> R4 --> R5 --> R6 --> R7 --> R8 --> R9 --> R10 --> R11 --> R12
style Step1 fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
style Step2 fill:#fff9c4,stroke:#f9a825,stroke-width:2px
style Step3 fill:#fce4ec,stroke:#c62828,stroke-width:2px
style Step4 fill:#ede7f6,stroke:#7b1fa2,stroke-width:2px
style Step5 fill:#e8f5e9,stroke:#388e3c,stroke-width:2px
5.3 与根因分析的数据协同
flowchart LR
subgraph 故障事件["故障事件"]
INC[故障事件
Incident]
end
subgraph RCA["07 根因分析"]
RCA1[逆向传播
找根因]
RCA2[RCA 结论
root_cause_node]
end
subgraph IA["08 影响分析"]
IA1[正向传播
算影响]
IA2[影响范围
impact_scope]
end
subgraph 决策["09 智能决策"]
DEC[综合 RCA + Impact
制定决策]
end
INC --> RCA1 --> RCA2 --> IA1 --> IA2 --> DEC
style RCA fill:#c8e6c9,stroke:#388e3c,stroke-width:2px
style IA fill:#fff9c4,stroke:#f9a825,stroke-width:3px
style 决策 fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
6. 模块协作关系
6.1 依赖矩阵
| 模块 |
依赖影响分析的什么 |
依赖类型 |
接口方式 |
| 02 拓扑建模 |
拓扑图谱(节点/边查询)用于正向传播 |
数据依赖 |
gRPC 高性能查询 |
| 07 根因分析 |
故障节点输入(触发影响分析) |
数据依赖 |
Kafka 事件订阅 |
| 09 智能决策 |
影响范围报告(决策输入之一) |
数据依赖 |
Kafka 事件订阅 |
| Dashboard |
影响范围可视化、业务损失实时更新 |
数据依赖 |
REST 查询 |
| 告警系统 |
级联故障预警(高优先级告警) |
数据依赖 |
Kafka 事件订阅 |
6.2 输出接口契约
6.2.1 影响范围报告格式
{
"report_id": "imp-20260607-001",
"incident_id": "inc-20260607-042",
"fault_node": {
"id": "svc-001",
"name": "payment-service"
},
"impact_scope": {
"total_affected": 23,
"by_label": {
"Service": 12,
"Database": 4,
"Middleware": 3,
"Host": 4
},
"by_level": {
"1": 5,
"2": 8,
"3": 7,
"4": 3
},
"critical_count": 8,
"max_depth": 4
},
"business_impact_score": 0.78,
"impact_level": "P1",
"estimated_mttr_min": 25,
"business_loss_per_min": 35000,
"cascade_risk": "MEDIUM",
"generated_at": "2026-06-07T08:16:00Z"
}
6.2.2 级联预测格式
{
"cascade_risk": "HIGH",
"predicted_cascade_nodes": [
{ "id": "svc-004", "depth": 2, "probability": 0.88 },
{ "id": "svc-005", "depth": 2, "probability": 0.82 },
{ "id": "db-002", "depth": 3, "probability": 0.75 }
],
"estimated_cascade_time_min": 12,
"confidence": 0.79,
"recommendation": "建议立即扩容以阻止级联"
}
7. 量化指标体系
7.1 准确性指标
| 指标 |
描述 |
基线(当前) |
目标 |
测量方式 |
| 影响范围准确率 |
预测影响节点与实际受影响节点的重合率 |
78% |
> 90% |
故障后人工核实 |
| MTTR 估算准确率 |
MTTR 估算值与实际恢复时间偏差 < 20% 的比例 |
75% |
> 85% |
历史故障统计 |
| 级联预测准确率 |
级联预测节点实际发生级联的比例 |
65% |
> 80% |
历史级联故障统计 |
| 业务损失估算准确率 |
业务损失估算值与实际损失偏差 |
70% |
> 85% |
财务核实 |
7.2 性能质量指标
| 指标 |
描述 |
SLO 目标 |
告警阈值 |
| P99 延迟 |
影响范围计算完成时间 |
< 500ms |
> 1s |
| 级联预测延迟 |
级联预测计算时间 |
< 1s |
> 3s |
| 最大传播深度 |
单次分析可达最大传播深度 |
10 跳 |
< 5 跳 |
| 并发分析能力 |
同时处理的影响分析任务数 |
50 |
< 20 |
7.3 业务价值指标
| 指标 |
描述 |
当前 |
目标 |
| 故障决策效率提升 |
影响分析辅助决策,减少人工评估时间 |
基准 |
+40% |
| 级联故障预警覆盖率 |
级联故障发生前被预警的比例 |
55% |
> 80% |
| 业务损失减少 |
快速影响评估减少故障持续时间,节省业务损失 |
基准 |
-25% |
8. 部署架构
8.1 K8s 部署拓扑
flowchart LR
subgraph 控制面["控制面"]
API[API Server]
end
subgraph 计算层["计算层"]
subgraph 服务["Impact 服务 StatefulSet"]
IA1[Impact Service x2]
end
subgraph 工作器["传播引擎 Worker"]
WORK1[Propagator x3]
end
end
subgraph 存储层["存储层"]
NEO[(Neo4j
拓扑查询)]
RD[(Redis
结果缓存)]
KF[(Kafka
事件总线)]
end
RCA[07 根因分析] -->|Kafka| IA1
T[02 拓扑建模] -->|gRPC| NEO -->|查询| IA1
IA1 -->|写入| RD
IA1 -->|发布| KF
KF -->|订阅| 09 智能决策
style 计算层 fill:#e3f2fd,stroke:#1976d2,stroke-width:2px
style 存储层 fill:#fff9c4,stroke:#f9a825,stroke-width:2px
style IA1 fill:#c8e6c9,stroke:#388e3c,stroke-width:3px
8.2 资源配置
| 组件 |
副本数 |
CPU |
内存 |
存储 |
备注 |
| Impact Service |
2(主备) |
4 核 |
8 GB |
—— |
StatefulSet,接收分析请求 |
| Propagator Worker |
3(并行) |
2 核 |
4 GB |
—— |
执行正向传播计算 |
| CascadePredictor |
2 |
4 核 |
8 GB |
—— |
ML 模型推理(GPU 支持) |
| Neo4j |
1 主 + 2 从 |
8 核 |
32 GB |
200 GB SSD |
拓扑查询 |
| Redis Cluster |
3 节点 |
2 核 |
8 GB |
—— |
影响范围缓存 |
8.3 高可用设计
- 服务多副本:Impact Service 部署 2 副本,Kubernetes 自动负载均衡
- 工作器并行:Propagator Worker 3 副本,并行处理不同故障
- 结果缓存:影响范围结果缓存 Redis,5 分钟内相同节点直接返回
- 降级策略:ML 预测超时降级为规则预测,保证分析完成
- 事件持久化:Kafka 事件持久化,下游消费失败重试
9. 本章小结
9.1 核心要点
| 维度 |
核心要点 |
量化目标 |
| 定位 |
能力层核心模块,正向传播从故障到影响范围,业务损失为导向 |
—— |
| 模型 |
影响范围模型 + 业务关键性评分 + MTTR 估算,3 大模型支撑 |
影响范围准确率 > 90% |
| 能力 |
正向传播 + 业务评分 + 级联预测 + 恢复估算 + 损失评估 5 大能力 |
MTTR 估算准确率 > 85% |
| 接口 |
REST + gRPC + Kafka,输出影响报告到智能决策和 Dashboard |
P99 < 500ms |
| 质量 |
影响范围准确率 / MTTR 准确率 / 级联预测准确率 / 业务损失准确率 |
级联预警覆盖率 > 80% |
9.2 关键成功要素
| 要素 |
优先级 |
实施策略 |
| 传播算法优化 |
P0 |
拓扑查询性能优化,传播引擎并行化,深度扩展 |
| 业务权重数据 |
P0 |
打通告警/业务系统,建立业务关键性评分数据 |
| 级联预测模型 |
P1 |
收集历史级联故障数据,训练级联预测模型 |
| MTTR 历史数据 |
P1 |
建立故障类型与恢复时间的映射关系 |
| 实时损失计算 |
P2 |
业务损失随时间实时更新,推送 Dashboard |
9.3 与其他模块的边界
| 边界 |
说明 |
| vs 07 根因分析 |
根因分析做逆向传播「找根因」,影响分析做正向传播「算影响」,两者互补,共同构成完整故障分析视图 |
| vs 02 拓扑建模 |
影响分析依赖拓扑建模的图结构做正向传播,但自己做「业务评分」和「损失估算」 |
| vs 09 智能决策 |
影响分析输出「影响范围和业务损失」,智能决策决定「是否执行动作、执行顺序」,影响分析不决策只评估 |
| vs Dashboard |
影响分析提供数据,Dashboard 负责展示和交互,两者通过 REST/Kafka 交互 |
记忆口诀:
正向传播算影响,业务权重来打分;级联预测早预警,恢复时间心中有数;损失随时间累积,智能决策来接力。
本章定义了模块 08 影响分析的详细功能设计规范。影响分析从故障节点出发,计算下游影响范围、业务损失和恢复时间,为智能决策提供 Impact 维度的关键输入。
文档版本:V1.0 | 更新日期:2026-06-07