ニュース
» 2017年03月03日 19時00分 UPDATE

「Amazon S3」で大規模障害、大量のWebサイトが一時利用できない状態に 原因は開発チームの入力ミス

コマンドの打ち間違いで、Medium、Imgur、GitHubなどに影響。

[マッハ・キショ松,ねとらぼ]

 米Amazon.com傘下のAWSによるクラウドストレージサービス「Amazon S3」で先日、大規模な障害が発生し、Medium、Imgur、GitHubといったWebサイトが利用できない状態に。この原因が、同サービスの開発チームの操作ミスだったことが明らかになりました。


画像 画像はAWSの発表より

 2月28日(北太平洋時間)、AWSはTwitter上で、バージニア州北部で「S3のエラー率が高くなっている」「その他のサービスにもインパクト」と障害が起きていることを発表。数時間で復旧したものの、膨大な数のWebサイトが閲覧できなくなるなどのトラブルが発生しました(関連記事)。

 発表によると、トラブルの原因はデバッグを行っていた開発チームの操作ミス。メンバーの1人が手順書に従って少数のサーバーを「S3」のシステムから除去しようとしたところ、誤って大量のサーバーを対象とするコマンドを実行してしまったそうです。その中にメタデータや位置情報の管理、操作などに必要なものが含まれており、システムの再起動を行っているあいだ、「S3」はリクエストを受け付けられない状態に。また、それに依存していたAWSの他のサービスにまで影響が及んだことから、障害が大規模なものになってしまったようです。

 今回のように広範囲の地域で該当のシステムを再起動させたことは、長年にわたってなかったとのこと。「S3」がここ数年、サービスとして急成長を遂げていることも災いし、復旧までに予想以上の時間がかかったそうです。

 AWSは操作ミスのあったツールにセーフガードを施すなどの再発防止策を明らかにしたうえで「『S3』がユーザーのアプリケーションやビジネスに、どれほど重要かは分かっている」「この出来事を教訓に、さらに利便性を高めていくつもりだ」とコメントしています。

マッハ・キショ松

Copyright© 2017 ITmedia, Inc. All Rights Reserved.

この記事が気に入ったら
ねとらぼに「いいね!」しよう