过去一周,我们遭遇了相当严重的中断,影响了几项服务,这些服务使我们脱离了客户的SLA.现在一切都已解决,我正在进行验尸审查. 从这篇评论中,我想提出一份内部文件,描述中断,影响,响
从这篇评论中,我想提出一份内部文件,描述中断,影响,响应和解决方案.我想提出一个相当标准的表格,以便将来重用.我在下面列出了我的想法,但还应包括哪些其他项目?如果这是与安全相关的事件,您会添加什么?
>摘要事件的执行级别摘要.
>受影响的服务
>影响对我们的用户和SLA有何影响?以美元计算,错过交易,丢失客户等是否有成本?
>中断持续时间对于每个受影响的服务,如果存在差异
>原因包括主要和次要原因
>决议
>活动时间表通知,与外部供应商联系,客户通知,回复等
>我们的回复问题在我们对停电的响应中,事情没有按计划进行吗?通知正确的人?供应商是否履行了合同义务?
>采取预防措施我们如何防止此次停电再次发生或减少其影响?
>检测方法我们检测到这种中断的情况如何?未来我们如何改进检测?
>未来中断响应的变化
尝试将帖子保持为一个项目和解释,并且可以使用最高投票答案更新此帖子.
尽管可以在预防性措施中涵盖,但我建议您使用检测方法部分,以便了解真正的症状是什么以及如果再次发生问题(如果再次发生的话,您可以更快地检测到问题),理想情况下使用自动化.