ITmedia ガジェット 過去記事一覧
検索
ニュース

「Amazon S3」で大規模障害、大量のWebサイトが一時利用できない状態に 原因は開発チームの入力ミス

コマンドの打ち間違いで、Medium、Imgur、GitHubなどに影響。

advertisement

 米Amazon.com傘下のAWSによるクラウドストレージサービス「Amazon S3」で先日、大規模な障害が発生し、Medium、Imgur、GitHubといったWebサイトが利用できない状態に。この原因が、同サービスの開発チームの操作ミスだったことが明らかになりました。


画像 画像はAWSの発表より

 2月28日(北太平洋時間)、AWSはTwitter上で、バージニア州北部で「S3のエラー率が高くなっている」「その他のサービスにもインパクト」と障害が起きていることを発表。数時間で復旧したものの、膨大な数のWebサイトが閲覧できなくなるなどのトラブルが発生しました(関連記事)。

 発表によると、トラブルの原因はデバッグを行っていた開発チームの操作ミス。メンバーの1人が手順書に従って少数のサーバーを「S3」のシステムから除去しようとしたところ、誤って大量のサーバーを対象とするコマンドを実行してしまったそうです。その中にメタデータや位置情報の管理、操作などに必要なものが含まれており、システムの再起動を行っているあいだ、「S3」はリクエストを受け付けられない状態に。また、それに依存していたAWSの他のサービスにまで影響が及んだことから、障害が大規模なものになってしまったようです。

 今回のように広範囲の地域で該当のシステムを再起動させたことは、長年にわたってなかったとのこと。「S3」がここ数年、サービスとして急成長を遂げていることも災いし、復旧までに予想以上の時間がかかったそうです。

 AWSは操作ミスのあったツールにセーフガードを施すなどの再発防止策を明らかにしたうえで「『S3』がユーザーのアプリケーションやビジネスに、どれほど重要かは分かっている」「この出来事を教訓に、さらに利便性を高めていくつもりだ」とコメントしています。

マッハ・キショ松

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る