2008年8月9日土曜日

呪われたサーバー?先週発生した障害の話

先週の日曜日の夜の10時ごろ、携帯電話が鳴った。前日、土曜日の朝、にあるサーバーに障害が発生してその対応で徹夜したが、まだ復旧できないので応援に来て欲しいというのだ。ちょっとアルコールが入っていたが、すぐに着替えて都内某所のデータセンターへ駆けつけた。

障害が発生しているサーバーはブラックベリーというスマートフォンと社内のグループウェアを同期させるためのものだ。利用者は役員を中心としたエグゼクティブで、利用開始時間の月曜日の朝7:00までの復旧は絶対だ。日頃は結果報告しか求めないPMが、今回は自宅からオンラインになって時折状況を尋ねてくる。

そのサーバーは1年前に稼動してから故障が相次いだため、担当者の間では半ば冗談で「呪われたサーバー」と呼ばれていた。最初にメモリが故障し、さらにCPU,ハードディスクと故障が続き、数ヶ月前にはマザーボードを交換した。唯一故障していなかったRAIDコントローラーが今回故障したのだ。これで交換していないのは筐体(ケース)だけになった。1年かけて少しずつ新品に交換したようなものだ。

それにしてもなぜこんなに故障が続くのだろう。個々の部品についてはもちろん保障期間があるが、通常は故障しないものばかりだ。故障が多いものの代表と言えば昔からハードディスクだが、それとて現在は技術の進歩で平均故障間隔は20年~30年だ。これは故障しないと同義のはずなのだが。実際、僕の自宅のサーバーは普通のPCでハードディスクはジャンクのIDEだ。サーバーなので24時間稼動だが、2年以上一度も故障していない。

あたりが悪いと言うか、ロットが悪かったと言えばそれまでだが、これだけ重なる可能性はそれこそコンマ以下2桁、3桁の世界だろう。

データベースの復旧に時間がかかったものの、結局月曜日の朝の6:30になんとかサービスを再開した。「お疲れ様でした。明日はおはらいですね」とは自分でもあまり面白くないジョークだった。

 

0 件のコメント: