业务连续性计划：威胁管理的主动方法

kavin 安全防护 2023-01-11 572浏览 0

俄乌冲突的持续升级让许多公司担心居住在乌克兰的员工或承包商的安全。此类事件也凸显了根据威胁形势制定应急计划的重要性。业务连续性计划：威胁管理的主动方法业务连续性是CIO和CTO规划流程的重要组成部分。“黑天鹅事件”(极不可能发生，实际却又发生的事件)会对业务产生重大影响。虽然其中一些事件是无法预料的——但有些却是可以提前预知的，甚至是完全可以做好防备的。业务连续性就是评估威胁形势并制定计划，以应对可预见的威胁并构建应对威胁的运营弹性。

威胁形势

领导团队的最佳实践是不断思考威胁形势，识别潜在问题并做好准备，否则的话可能会对企业造成重大的财务影响。可能需要计划在内的事件包括(但不仅限于)：

地缘政治威胁(例如，俄乌事件)；自然灾害(例如地震)；定向威胁(例如勒索软件)；监管变化；

针对其中的一些威胁需要立即采取措施。其他威胁则需要制定计划，以确保团队知道关键目标是什么，以及面对威胁时需要采取的行动。CIO和CTO需要不断监控威胁形势并在必要时进行更新。像SOC-2认证这样的检查就具备很好的强制功能，允许对某些威胁进行外部检查。 SOC-2是一份基于美国注册会计师协会现有信托服务标准(TSC)审计标准委员会的报告，目的是评估与安全性、可用性、处理完整性、机密性和隐私相关的组织信息系统。

为地缘政治威胁做好应对计划

以Inflection公司为例，早在俄乌冲突发生前一年半，该公司就已经为可能与乌克兰相关的业务中断做好了准备。他们制定了一套原则，并根据这些原则制定了计划，关键原则包括：

建立一个地域多元化的团队。除乌克兰外，Inflection还在美国和巴西建立了大量业务。建立工作多样性。Inflection并非在每个区域都拥有完整的功能，而是要求团队跨区域协作。这种方式存在缺点(例如，沟通障碍)，但长远来看，这是一个正确的权衡。优先考虑员工和承包商的安全。在地缘政治事件中，想要确保安全无疑需要产生额外的财务支出，Inflection愿意花更多的钱来确保员工和承包商的安全。他们为乌克兰的团队成员提供了三个月的生活费，以便他们能够搬到不同的地方。强调书面交流而非口头交流。例如，每个重要的工程决策都要经过严格的架构决策过程。

这些主动措施使Inflection能够在确保业务连续性的同时，优先考虑员工安全。除了上述这些原则外，Inflection还制定了一份详细的计划来确保为长期无法工作的员工提供保障。

实践中的连续性规划：深入了解软件可用性

主动规划的一个例子与自然灾害有关。如果灾难(例如地震)袭击企业的数据中心所在的区域并导致网络分区，企业的计划是什么?假设企业使用的是公有云供应商，下面的示例将呈现整个思考过程。规划可用性的出发点是企业向客户承诺的正常运行时间。标准的SaaS正常运行时间基准是99.95%的可用性，这相当于每年允许4小时22分58秒的不可用性。在计划这一点时，企业需要考虑：

当事件确实发生时，企业的RTO(恢复时间目标)和RPO(恢复点目标)是什么？做出权衡决策需要就这些指标达成一致。有维护窗口吗?如果有，请从不可用性预算中减去它。(还应该问自己为什么有一个维护窗口。) 所在平台的基本保证是什么？云供应商通常不提供任何正常运行时间保证。如果可用区(数据中心)失去可用性，企业的计划应该是什么？如果一个区域(多个可用区)出现中断，企业的计划应该是什么？如果供应商(多个地区)不可用，企业的计划是什么？

这些问题有不同的“成本-复杂性”(cost-complexity)权衡。较小的企业可能会选择规避更大的复杂性，而对于大型企业来说，选择可能会有所不同。计划的目标是对这些问题中的每一个都有一个清晰的认知和把控。企业是否应该通过多个可用区(vailability zones)支持高可用性?对于大多数企业来说，这是一个简单的决定：在AWS中支持多个可用区并不复杂，并且可以用相对较少的费用和复杂性来完成。如果出现区域性中断-灾难恢复 (DR) 情况，企业应该怎么做?进行跨区域同步既复杂又昂贵。很少有企业会选择这样做。相反地，企业可以选择将数据备份到另一个区域，并让企业的RTO(恢复时间目标)和RPO(恢复点目标)反映这样一个事实，即企业的权衡结果是用更长的恢复时间换取更简单的架构。如果云供应商完全中断怎么办？进行跨供应商部署非常复杂且昂贵。在大多数情况下，将企业的数据备份到不同的云提供商就足够了。但是，如果企业经营的是一家大型企业，出于成本和规模的原因，企业可能希望加入多个云供应商。企业制定的计划需要考虑到所有这些问题，并获得公司高管的同意。当事件真实发生时，企业还需要制定沟通计划(例如，我们将如何通知客户?)，最重要的是，必须对计划进行测试。除非定期实践，否则这些计划将毫无意义。以Inflection公司为例，他们最终做出的决定包括：

通过部署多个可用区来支持高可用性。客户无法察觉单个数据中心的损失。在多个区域之间同步数据，以支持小于24小时的恢复点目标(RPO)和小于72小时的区域灾难恢复时间目标(RTO)。将数据同步到二级云供应商，以确保在云供应商完全中断的情况下，企业仍然可以恢复运行。最后，每年进行一次数据库恢复实践，每季度测试一次灾难恢复实践。

规划定向威胁

在过去几年中，勒索软件等威胁显著增加。这些威胁需要正面应对。在Inflection公司，他们的计划包括：

获得 SOC-2 认证并确保公司的流程与业内最佳流程相媲美；确保静态数据和传输数据始终加密；参与漏洞赏金计划；让外部机构进行渗透测试；确保员工设备已加密并具有适当的软件保护，可抵御恶意软件、网络钓鱼和其他攻击；为自己投保；

事前分析

领导者需要考虑的一个有用的练习是“事前分析”。在考虑业务连续性问题时，最好是主动而不是被动的。事前分析与事后分析相反。虽然事后分析可以让我们在事情已经发生之后分析“出了什么问题”，事前分析的重点在于了解“可能出了什么问题?我们怎样才能防止这种情况发生?”事前分析允许对业务连续性进行更深入的规划，以便在意外发生时毫不费力地利用已规划好的内容，从容地应对现实事件。