从春运网上售票看各种服务器宕机故障

春运,号称人类历史上最大规模的周期性人类大迁徙,2011年如期而至,在从1月19日开始为期40天左右的时间内,铁道部预计客流量将达 28.5亿人次,快要把全国人民运个来回了。如此浩大的客流,造就了一票难求的现状。君不见为了一张小小的回家火车票,各大售票点排队人群的壮观程度和密 集程度让人叹为观止:密集的排队大军中排队4、5小时是常事,萧瑟冷风中也许你可以见着批被子的独特风景。环顾四周,还可以见到几个席地而坐的,大概是排 明天的队吧。

图一 春运排队购票

除了排队买票外,网上订票也成为了一种买票方式,只是由于铁道部还没有推出购票系统,目前网上订票大多是代购和转让。联想到奥运售票系统,即便是铁道部 推出购票系统也大概也只能是摆设,如此巨大的购票人群,没有那个系统能承受得起吧,网上购票不同于排队买票,排队即使再怎么人多,再怎么拥挤,售票还是能 进行的。网上购票就不一样了,服务器会由于负载过大而直接宕机了事。北京奥运售票系统就是个活生生的例子,奥运售票系统开放的第一天就被热情的抢票大军冲 跨。相比春运,奥运门票的区区700万和28.5亿比起来可谓小巫见大巫。而且网站服务器宕机致死原因还不止流量负载过大这一个。

前不 久的1月14日,苹果推出特惠活动,没想到就在那天苹果在线商店(apple store)上不去,究竟是在线人数太多被刷爆还是另有原因?没有正式的官方解释。苹果在线商店宕机影响不过是苹果的特惠活动赶不上,大不了过段时间再 买,试想如果火车票售票系统瘫痪后果不堪设想。

图二 苹果在线商店

相比此次苹果事件,服务器宕机在国内外各大IT企业网站时有发生。服务器宕机致死一般有几种原因:电源故障硬件故障软件故障流量负载过大,遭受黑客攻击等。

致死原因一:电源故障

停电自然会引起服务器宕机,还没有哪个服务器不用电的吧。在刚刚过去的2010年,闪电、风暴、洪水、转换开关的失误都是今年数据中心停电的罪魁祸首, 大量的社会媒体网站,如Twitter、Facebook以及一些免费托管的服务器群都有严重的断电现象。在2010年,主要电子商务商服务的服务器就出 现了四次严重断电,导致数百万美元的交易流产,甚至连政府服务网站也出现宕机事件。

iWeb的CL数据中心因火灾迫使3000台虚拟服 务器主机转用发电机设备进行供电,其中三台发电机正常启动,另外一台因转换开关故障而启动失败。一旦UPS电源被耗尽,该数据中心将有三分之一的设备宕 机。大约一小时后电力恢复,但至少有450台的服务器没有重新启动,需要进行人工操作,一直持续到4日的下午4点所有的服务器才开始正常运行。通过这一事 件,iWeb在博客中表示,该公司每星期都会对备用电力设备进行测试,防止同类情况发生。

在此前的9月16日,网上银行门户网站Chase.com在遭遇了14号和15号漫长的停电而停机后重新上线,但是冗长的等待过程导致了定期支付账单无法按时交易。该网上银行门户网站表示:将退客户还在此期间产生的的滞纳金,并对此事件进行公开道歉。

在5月初,Amazon云计算服务4次因停电而发生故障,5月4日的两次故障的原因则分别是一个UPS单元故障和人为操作失误;5月8日因配电屏电气接 地和短路引发的停电曾导致部分用户失去服务长达7个小时,而且还导致极少量用户的数据丢失。而在5月11日,停电故障则是因为一辆汽车撞倒了Amazon 数据中心附近的高压电线杆,而数据中心的配电开关又未能正常地从公用电网切换到内部的备用发电机(配电自动化系统错误地将停电原因理解为电气接地)。

致死原因二:硬件故障

在去年的12月12日,亚马逊旗下英国、法国、德国和西班牙网站晚间宕机超过一个半小时,有报道称,由于亚马逊停止向维基解密网站提供服务,亚马逊欧洲 购物网站引发黑客攻击而出现访问障碍。但是在第二天,亚马逊女发言人马丽·奥萨科(MaryOsako)在一份电子邮件中谈及所谓的遭受拒绝服务攻击时表 示:“今天早些时候公司欧洲零售网站出现短暂的访问中断,是由于我们欧洲数据中心网络硬件出现故障,并非遭受分布式拒绝服务攻击(DDOS)。”

无独有偶,美国最大的在线支付平台PayPal在2010年10月29日也因硬件故障发生宕机事故。宕机发生于美国东部时间上周五上午11时,当天下午 12时30分故障解决。但是,下午2时30分,故障再度发生,并持续了近一个小时。恢复和失效备援系统未能立即发挥作用。故障期间,PayPal的所有用 户均无法使用该网站的服务。

致死原因三:软件故障

2010年2月18日下午(美国当地时间), 美国博客服务平台WordPress网站发生服务故障,此次故障持续时间达110分钟,使约1020万家使用WordPress服务的博客网站受到影响, 受到影响的网页浏览数量高达550万个。WordPress创始人马特·穆伦维格(MattMullenweg)在该公司官方博客中表示,故障原因是由于 WordPress数据中心服务商对一台主要路由器参数进行了调整。

穆伦维格当时还表示,希望下次WordPress发生大规模服务故 障的时间至少也在“四年之后”。但出乎穆伦维格意料的是,仅仅不到四个月之后,WordPress再次发生大规模服务故障。在6月10日晚(美国当地时 间)发生的那次故障,导致超过1000万家使用WordPress服务的博客受到影响,其中包括知名科技博客TechCrunch、GigaOm等网站一度无法正常访问。穆伦维格表示导致此次故障的原因是:WordPress对一部分所托管博客网站的代码进行了调整。

早在2000年,亚马逊公司也曾发生过软件故障引起的宕机事故,那年的感恩节前后的两周,亚马逊网站在不到两周时间里出现第三次瘫痪,对此,亚马逊表示 出现故障的原因是网站的内部软件有问题。亚马逊发言人表示:“我们在同一时间运行了两个软件,结果证明这两个软件无法兼容,于是导致网站出现瘫痪,现在我 们已对这一问题进行了确认和分析,而且已排除了故障。”

致死原因四:“鸭梨”过大 消化不了

相比其他原因,网站服务器宕机事故是较为常见的原因是流量负载过大而引发。就好比春运一样,短时间内大量人员的流动导致了铁路部门的紧张,而突发性高并发量访问则使得系统服务器瘫痪宕机。

流量过大,往往在网游中会出现,魔兽世界在中国的代理商由九城变更为网易,与九城服务器经常宕机不无关系,但是换作网易后服务器也是经常宕机。以下是 2010年10月11日魔兽世界服务器故障时官网论坛上游戏玩家的“贺电”截图,看着这些刷屏帖,魔兽世界的火爆程度可见一斑了:

图三 WOW网友刷屏“贺电”

与游戏服务器有着类似,近来越来越流行的网上购物也使得大型购物网站面临着此类宕机风险,此类网站经常有由于突发性高并发量而宕机的案例,尤其是在感恩圣诞等购物旺季。

沃尔玛Walmart.com几乎每年黑色星期五期间都会被巨大的流量冲击致死,09年沃尔玛网站集中添加了基于Flash、OpenLaszlo和其 他创新技术的互动功能试图让顾客便捷地浏览内容,然后迅速地结账走人,试图改变这种状况,但是呢,黑色星期五这个网购高峰来临时,情况依 旧,Walmart.com被相当于去年年同期7倍的网络流量冲垮了,瘫痪长达10小时。

图四 ebay网宕机

不仅沃尔玛,作为美国数一数二的电子商务网站ebay在同时期也发生了宕机事故,09年11月22日,eBay网站出现宕机,导致卖家至少损失了当日销 售额的80%。eBay发言人表示,一名员工修改系统后,eBay搜索引擎当天无法使用,出现宕机故障。技术故障“与待售商品激增有关”。每年感恩节和圣 诞节前夕,网站上待售商品都会大幅增加,但是经过两年的经济低迷后,eBay低估了增加的幅度。但是那年圣诞临近时eBay网站上有超过2亿件待售商品, 这个数字比上一年同期多出33%,正是这激增的33%的待售商品导致eBay网站不堪重负而宕机。

早在2007年圣诞购物旺季,雅虎电 子商务系统就因网络购物流量过大而出现宕机事故,雅虎发言人表示,从美国东部时间11月26日5:30(北京时间11月26日18:30)开始,支撑雅虎 商家解决方案业务的基础设施因网络购物流量过大而出现故障。受此影响,依赖于这一解决方案的约4万个网站无法正常完成订单。

除了游戏和购物网站外,其他类型的网站呢?

视频网 站优酷网也发去年发生宕机事件,超过3小时无法访问。据报道称,此次宕机事件起源于“地球一小时”活动,优酷网为响应次活动,全站采用关灯模式,意在借此 提醒网民注重环保与节约。但此举令网友一时无法适应,大量网友频繁刷新页面导致优酷网服务器崩溃。想法是好的,可惜事实难料,网友们看视频追求的清晰,而 不是节能。为了配合“地球一小时”活动而宕机超过3小时,倒不如直接停止服务一小时。

图五 优酷网宕机

Google旗下的Gmail也经常发生宕机事件,09年9月2日,宕机长达1个半小时,流量过大导致服务器过载是此次事故的原因,Google做出了 一些改进以改善服务器及路由流量,将网络查询转发至合适的Gmail服务器,而就在数台Gmail服务器离线进行例行升级时,服务器出现了流量过载。在当 年的2月份、3月份和5月份,Gmail也先后出现宕机故障。

亚马逊,雅虎、谷歌都发生都发生过宕机事故,那么另一巨头微软呢?在09年7月16日时,微软在线商店就因流量过大而停止服务,此次流量过大是微软Windows7操作系统在欧洲市场的预售表现火爆引起的。

微软Hotmail服务在2010年2月17日出现宕机事故,持续约1个小时。在09年12月4日,微软的另一个服务搜素引擎Bing在2.0版发布后的第二天就出现了访问故障。从下面的宕机页面大概能猜测出宕机的原因是负载过大吧。

图六 Bing宕机

目前中国最大的微博平台新浪微博在2010年12月1日发生宕机4小时,新浪官方解释说:之所以掉线几小时,是因为用户增长超出预期,服务器倍感压力。

此次事件中,自上午10点起,用户无法登陆,新浪的报错页面几次更改,最初的“微博正在升级,将于11:30恢复”,然后改为“12:00恢复”,过了一段时间,干脆改为“稍后恢复”,这样总不会错了。从下面这张网友恶搞图片就能知道。

图七 时间一改再改

然而,估计是看不到恢复希望,提示信息又改为“微博系统压力过大正在抢修,我们深表歉意”。悲剧的是“歉意”竟然写成了“谦意”,于是又有了下面这张图:

图八 鸭梨过大导致错别字

致死原因五:黑客攻击

新浪微博宕机事件中,从事件开始时就有人猜测是被竞争对手黑的,直到新浪官方解释是由于系统压力过大所致,也还有人怀疑。不过黑客攻击致使网站宕机的案例也不少。

相信大家对去年年初的百度被黑事件记忆尤新吧,2010年1月12日晨有网友发现百度无法打开。下面图片是那次事件的进展。

图九 百度瘫痪进展

图十 百度被黑页面

此次是伊朗网军在一个月内的第二次攻击著名网站,09年12月18日,在美国当地时间晚10点左右,知名微博网站Twitter遭到黑客攻击,其首页遭到篡改,Twitter因此而宕机数小时。

图十一 Twitter被黑

致死原因六:通信运营商原因?

2010年年尾的新浪微博4小时宕机让5000万的微博用户体验到了微博在他们生活中是多么重要的一部分;10月份的魔兽世界国服取的大面积停服让网游 爱好者体会到了网易的作用;年初的百度大瘫痪更是让中国网民感叹百度搜索原来这么方便,而腾讯自然也不会落下,一定也会有大面积的宕机,要不然怎么让广大 网民知道腾讯的或不可缺呢,怎么体现腾讯在中国互联网的重要地位呢?

09年6月25日下午17点后,部分用户互联网访问出现故障,出现互联网拥堵现象,腾讯QQ服务一度中断。据说,这一事件是由搜狗与腾讯输入法一案引起 的,2009年6月25日下午17点47分,搜狗发动了历史以来最大黑客攻击,到18点16分,攻击还在持续,腾讯所有的服务器全部瘫痪,所有的腾讯产品 均无法使用。

另有说法称事件始发于两个游戏“私服”为争夺玩家而相互攻击,在无法“黑”掉竞争对手网站的情况下,一方干脆对服务器进行了狂轰滥炸,导致QQ大量掉线。由于国内《魔兽世界》正处于停服状态,多个“私服”人流量近日已连创新高。

不过在6月25日晚间,腾讯科技发布公告称,由于电信互联网骨干网出现故障,导致腾讯部分服务不能正常使用。

图十二 腾讯通告

类似的情况在08年的平安夜(12月24日晚)也发生过,网友反映,除了IM软件、支付系统和部分Web服务之外,腾讯的手机QQ服务以及多款网络游戏 也出现了无法连接到服务器的情况。此次事件有猜测是黑客攻击所致,巧合的是,腾讯官方解释也是由于运营商线路故障。看来腾讯的运营商总是出问题。

致死原因七:未知原因

全球最大的社交网站Facebook今年1月14日上午发生的欧洲多个国家发生宕机事故。宕机事故主要发生在英国、挪威和瑞典等国,苹果的 iPhoneFacebook应用也是如此,而且问题持续5个小时以上。目前还不清楚是安全问题,还是基础设施问题所致。而且到目前为止Facebook 也没有给出解释,相比去年9月23日的那场宕机事故中,Facebook官方在当天就发出了宕机事故说明,可以理解为此次Facebook是未知原因致 死。

类似的未知原因的致死事件还发生在亚马逊。2010年6月29日(周二),亚马逊网站出现大范围宕机,持续时间超过3小时,在此期 间用户只能浏览空白和部分产品页面。周二中午,亚马逊主页图片无法显示,只在屏幕左侧显示有分类列表。搜索功能无法使用,购物车和产品保存列表也出现暂时 性空白。有数据表明亚马逊年收入近270亿美元,这意味着一旦网站宕机,亚马逊的损失为每分钟5.14万美元。可见宕机事故对知名网站的损失有多大。

讲了这么多,此次事件的原因呢?亚马逊没有正式的公告,甚至事件的猜测各大网站上都未见报道。只是大谈特谈宕机的损失。暂且将此次事件也归为未知原因致死吧。

图十三 亚马逊宕机

总结:服务器经常宕机?

服务器宕机,这是每个网站都有可能遇到的问题,但是作为服务器,稳定性还是挺高的,即使是文中提到次数最多的亚马逊,一年的故障时间也在10小时以内。而且有些致死事件是完全可以避免的。

服务器不比个人电脑,死机重启没什么影响,但像上面的亚马逊,宕机一分钟就损失上万美元。因此我们要最大程度的避免宕机,对于不可控的因素,比如通信运 营商的原因、未知原因,我们无能为力。但对于误操作引起的电源故障,硬件问题,或者是某处的设置出错,我们是可以避免的。对于黑客攻击和鸭梨过大这两个致 死原因,考虑到经费问题。我们只能是尽力避免吧,人家真是下功夫黑你,能怎么办呢,金无赤足人无完人,无懈可击的系统也是没有的吧;鸭梨过大,我们可以说 既喜又怕,没有哪个网站不追求流量吧。可是考虑到经费问题,我们又不可能为几星期甚至几天准备而足够的冗余,只能自求多福。

网络订票何时实现?

铁道部为什么没有推出网上售票系统呢?很大原因在于节假日客流的高并发量上,事实上,北京曾有过网上订票的尝试。

2000年,当时的北京铁路分局“认定”的北京首铁在线电子商务有限公司成立,开通“首铁在线”网站,提供火车票查询、预订等多项服务。

在2005五一期间,因为网上购票人数过多,“首铁在线”服务器出现故障,许多客户无法网上订票。当年春运高峰时,网站也曾瘫痪过。2008年,“首铁 在线”放弃火车票余额查询、网络订票、电话订票功能,只余部分信息查询服务。多名曾在首铁在线订票的网友说,遇到春运等特殊时期,在网上经常订不到,平时 紧俏线路也很难订,还不如在窗口买靠谱。

不过在去年,7月28日举行的“中国高速铁路成就”暨第七届世界高速铁路大会新闻发布会上,铁道部运输局综合部主任李军他表示,铁道部正在积极推进网上订票,不久的将来就可以在中国实现网络订票。

不知“不久的将来”有多快,而到时候系统服务器能否承受每年春运如此之大的流量压力呢?是否会和“首铁在线”一样压力过大宕机致死?只能是希望这个不久不要很久,而且订票系统时候别宕机,这样或许能缓解一下买票难的压力。

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注