今天早上,我在拥堵的高速公路上停下来买咖啡喝,我已经养成这种习惯了。当然,正宗双层自由售卖焦糖可续杯摩卡加点脱脂奶才是上品,但是一小杯咖啡混合些牛奶对于我来说已经足够好了。高速公路上的行车速度慢得出奇,排队窗口处我看见有半数车辆会暂停一会儿——然后又像F-18战斗机一样飞速离去。轮到我的时候,一个虚空般的声音飘来:“欢迎来到麦当劳。我们今天只收现金;信用卡机器坏了。您需要什么?”
接下来发生的事情提醒了我们WAN的重要性,以及WAN故障的最基本影响。
曾经有一次,我钱包里实际上只有5美元左右,然后买了一杯咖啡和找了零钱——一切都是老一套;我剩下几个便士而已。按照我平时买咖啡的习惯,我会开车到停车场一角,查看我的电子邮件和工作日程,整理一下接下来一天的想法,顺便错开一段交通拥挤的时间。
然而,今天早上我观察到的趋势要好过我的预期,我开始计算失望而去的人数与高兴而归的人数之比例。5辆车中有3辆车开走了。这意味着这家麦当劳店将60%的重要早晨顾客放走了。而且,收银员告诉我说,这个区域内所有店的网络都已经瘫痪。因此,我们可以推断,在这个区域甚至整个地区中,这个大品牌因为断网而每秒钟都在真真切切地损失金钱。
且不论Target因为防火墙问题损失5亿多美元的事件,这个状态更加让人难受!这就像坐在飞机场里,航空公司的订票系统断线,然后每秒钟有1亿美元消失不见。不同的是,极少发生的航空旅客服务系统(PSS)停运事件一定会成为头条新闻。Sabre曾经保持6年时间正常运行而不发生任何分钟级短暂停用事件。
然而,像我观察到这种WAN故障每天都在发生,只是我们已经接受了它属于业务正常现象。与PSS不同,它们可能会有上百万个故障点,监控它们确实是一种巨大挑战,或者说代价高昂,所以一般的做法就是双手合十做个祈祷而已。但是,在现代互联的服务中,祈祷并不是解决问题的方法。
每一条链路都可能造成影响
我们很容易关注于可用性监控和一些重要业务的警报——如混合云中云与本地机架之间的VPN链路,以及连接业务所依赖的远程桌面等软件即服务(SaaS)。
但是,许多业务变得越来越分散,甚至现在需要监控的互联网链路会多达几百条。例如,Salesforce是一个核心,但是会有多少链路连接各个区域办公室呢?企业的每一个销售代表是否都有他们需要的链路数呢?还有医疗保健台、上游供应商及时库存跟踪系统和销售点PC呢?
每一天关键终端任务都会迁移到我们的网络,同时它们所依赖的服务会以SaaS或云的方式发布到互联网上。我们似乎都忘记了WAN的出现要比LAN迟几十年,只有在LAN得到很好的监控之后,人们才会去考虑WAN的监控。
早上的外卖案例体现了两个方面:一、WAN不仅对于园区间业务(即核心网络与云网络)而言非常重要,它也是交付最普通产品(如快餐)的重要条件。它出现故障会立即对收益产生重大影响,因为手头上的易变质食品卖不出去会造成额外损失。二、WAN可能会在紧急时刻成为网络管理员的巨大难题。有时候高速公路排长队时,可能一位管理员认为这是很平常的一天。但是,当他的手机响起,另一端传来地区长官愤怒的声音,更坏的后来他的营业执照会被吊销。
我对此心生感概。另外,我马上给自己的日程加上了一条,再一次检查我的远程IP服务水平协议测试程序。这也是我对你的建议。
转载请注明:IT运维空间 » 运维技术 » WAN故障:牵一发动全身
发表评论