Infoseek 楽天

障害が続いた「ネイチャーリモ」、“抜本的な対策”をメーカーに聞いた 「ローカル対応、進める」

ITmedia NEWS 2024年8月1日 19時20分

 7月31日の早朝、スマートリモコンの「Nature Remo」シリーズで障害が発生し、専用アプリやスマートスピーカーからエアコンなどの家電を操作ができない状況となった。7月は8日にも障害があり、ユーザーから「月に2回はやばい」といった声も漏れ聞こえる状況だ。メーカーのNature(神奈川県横浜市)に、7月に発生した障害の原因と今後の対策について聞いた。

──7月8日に発生した障害の原因を教えてください

Nature:8日のシステム障害は、本日発生した障害とは別の原因です。Natureサーバ上のデータベースに対する書き込みリクエストが一時的に急増し、想定していたキャパシティを超えたため、書き込みリクエストにかかる時間が大幅に延びる事象が発生しました。

 この結果、APIサーバがダウンし、Nature Remoとサーバ間の通信を適切に処理できず、Nature Homeアプリからの操作ができない状態になりました。

 その後、大量のNature Remoからの再接続が発生しシステム全体に障害の影響が広がったことから、原因の特定と対処に時間がかかり長時間におよぶ障害となりました。

──どのような対応をされましたか

Nature:直接の原因である時系列データベースについて、書き込みキャパシティを見直し、一時的に書き込みリクエストが増えた場合でも問題なくレスポンスを返せるよう一次対応を完了いたしました。

 今後、一部の負荷の上昇がシステム全体を不安定にさせないよう、各部分を疎結合にし、障害発生時の影響範囲を最小化する変更をしていこうと考えています。

──7月31日の障害はAWS(Amazon Web Services)が原因と発表されています。Nature Remoのサービスにおいて、AWSが果たしている役割を教えてください

Nature:全てのNature Remoはセットアップ後、AWクラウド上でNatureが運営するサーバ群に常時接続します。アプリや音声アシスタントからの操作も、同じサーバ群を通して行います。そのため、Nature Remoを通した家電操作はAWSに強く依存しています。

──AWSは以前も障害を起こしています

Nature:「家電の操作をする」という点において、AWSに依存している状態には課題感を持っており、「サーバを介さない形で一部の家電をコントロールできる仕組み」(=ローカル対応)ができれば、今回の障害対応はできたと考えています。

──暑い盛りに月に2回も同じような障害が発生したことで、SNSなどでは動揺したユーザーさんの声も見受けられます。抜本的な対策になりますか?

Nature:ローカル対応が抜本的な対策となると考えています。ローカル対応は、AWSに一時的な障害がある場合でも、家の中にいる場合には家電操作を行うことができる機能として検討しています。

 7月8日の障害発生時に既に対策チームを組成し、検証などを始めています。ローカル対応を最優先事項の1つとして実装計画を立てている状況です。

 なお、今回トラブルのあったAWSのリージョンの変更も含めて検証しています。

この記事の関連ニュース