「Amazon S3」で大規模障害、大量のWebサイトが一時利用できない状態に 原因は開発チームの入力ミス
コマンドの打ち間違いで、Medium、Imgur、GitHubなどに影響。
米Amazon.com傘下のAWSによるクラウドストレージサービス「Amazon S3」で先日、大規模な障害が発生し、Medium、Imgur、GitHubといったWebサイトが利用できない状態に。この原因が、同サービスの開発チームの操作ミスだったことが明らかになりました。
2月28日(北太平洋時間)、AWSはTwitter上で、バージニア州北部で「S3のエラー率が高くなっている」「その他のサービスにもインパクト」と障害が起きていることを発表。数時間で復旧したものの、膨大な数のWebサイトが閲覧できなくなるなどのトラブルが発生しました(関連記事)。
発表によると、トラブルの原因はデバッグを行っていた開発チームの操作ミス。メンバーの1人が手順書に従って少数のサーバーを「S3」のシステムから除去しようとしたところ、誤って大量のサーバーを対象とするコマンドを実行してしまったそうです。その中にメタデータや位置情報の管理、操作などに必要なものが含まれており、システムの再起動を行っているあいだ、「S3」はリクエストを受け付けられない状態に。また、それに依存していたAWSの他のサービスにまで影響が及んだことから、障害が大規模なものになってしまったようです。
今回のように広範囲の地域で該当のシステムを再起動させたことは、長年にわたってなかったとのこと。「S3」がここ数年、サービスとして急成長を遂げていることも災いし、復旧までに予想以上の時間がかかったそうです。
AWSは操作ミスのあったツールにセーフガードを施すなどの再発防止策を明らかにしたうえで「『S3』がユーザーのアプリケーションやビジネスに、どれほど重要かは分かっている」「この出来事を教訓に、さらに利便性を高めていくつもりだ」とコメントしています。
(マッハ・キショ松)
関連記事
「Z会」システム障害で教材配布できず 2017年度の新規申し込みを当面停止
最大約10万人に影響、との報道も。DMMサービス全体でアクセスしづらい状況に 提督や審神者たちが難民化
提督が着任しません! ※追記:復旧しました「ダークソウルIII」外部からの攻撃で一時オンラインサービス中断 4時間後に再開も「不安定な状況」続く
3月24日に発売されたばかり。LINEの偽アカウントがサービス障害の原因を「サーバの上で味噌汁をこぼしたため」とデマ拡散 公式が注意喚起する事態に
メッセージやスタンプの送受信が不安定な状態でした。「ALL.Net」大規模障害でアーケード混乱 セガ・バンナムのオンライン機能ほぼ全滅 ※追記2 暫定復旧
今朝から長時間にわたり障害発生中。
関連リンク
Copyright © ITmedia, Inc. All Rights Reserved.