11月23日早朝、楽天ペイが利用できなくなり、ニュースが飛び交った。この経緯について疑問に感じることが多いので、長くインターネットサービス、データセンターサービスに関わった立場からまとめておく。
事態を知ったのは、11月23日午前のNHKニュースである。消費増税後のキャッシュレス消費者還元事業が行われており、政府がキャッシュレスを推進していることから注目度は高いので、最大手のサービス停止は大きなニュースである。
ここで事態を確認するために、楽天カード側からの発表を確認した。ここで、目を疑ったのは、楽天カードの発表が、「本日6時頃からの株式会社QTnetの電源設備更新作業に伴う不具合により当社システムに影響が出ており、」と書かれていることだった。
事業者が自社のサービスを遂行するのに、利用しているデータセンターの名前を明らかにするということはリスクマネージメント上考えられないことと思っていたので、目を疑った。ここで何か異常な事態が起きているのではないかと思われた。
その後、QTnetからも広報が行われた。これも異常事態で、一般消費者、個人が利用しているサービスであれば公開での障害報告がなされるべきであるが、データセンターは限られた企業、事業者のみが利用しているものであり、利用者への障害報告が迅速に、丁寧に行われるべきであるが、一般向けに広報する必要はない。これは、この時点で影響を受けた他社のサービスがあれば、そのサービスの設備がそのデータセンターに収容されていることを間接的に判明させてしまうので、好ましくない。
QTnetの発表によって、今回の事故が、無停電・安定化電源設備そのものの更新作業に伴うことであることがわかったわけで、まかり間違えば、(今回はそれが起こってしまったわけだが、)電源の不安定化を招く作業である。このような作業は、何年に一度かは発生する。障害発生のリスクは低いもののゼロではない。
そもそもデータセンターや、インターネットサービスでは毎日のように障害を予防する意味も含めてなにかしらの作業が行われている。機器はかならず壊れるので、基本的には壊れてもサービスが停止しないように設計されてはいるものの、一部が壊れている状態は不安定な状態である。性能の向上、保障を求めて設備のリプレースはかなり頻繁に行われている。すべての作業にリスクが存在するが、その度合いによって作業手順を判断する。やむを得ず停止を伴う作業も存在するので、その場合には事前に予告し、調整して行われる。
ところがこのリスクというのは厄介なもので、わずかながらリスクが存在し、性能への影響がある可能性がある場合には、利用者に対して公開するべきだとも思うが、これがあまりに数が多いと営業サイドからは、利用者が不安に感じるからやめてくれという話になる。
今回の事故について、データセンター側と顧客側に十分なコミュニケーションがあったかは検証すべきであるとは思われる。
しかし、公衆サービスを提供する事業者はそれでよいわけではない。様々なサービスを利用して自社のサービスが運用されているので、自社が利用している他社サービスに障害が発生した場合に、何が起こるか、そこからのリカバリーはどのように行うかを事前に予測し、手当てをしておく必要はある。
冒頭に異常事態と述べたが、単独のデータセンターの電源の7秒間の停止によって、長時間の停止を招いた事態は、リカバリー手段を検証していなかったと思われる。もちろん、想定外の二次的障害が発生したという可能性も否定はできない。異常だと感じられるのは、金融関係のサービスを提供する事業者がよもや単一のデータセンターに依存したサービスを行っているとは考えられないからである。楽天カードの提供しているサービスをよく考えると、利用者が、あれおかしいなあと思って何度かやり直す間くらいは停止していても問題は起きないともいえる。しかし、停止を許容しても停止から回復する際には過負荷になるリスクも高い。25日の停止は23日の停止のリカバリーに伴う影響もあるだろう。これだけ利用者の多いサービスであれば、サービスが利用できなくなる時間をなくすほうが、間違いなく安定運用に資するものと思われる。
コンベンショナルな金融機関ではなく、ネット企業がこうしたサービスを展開して、柔軟な発送で利便性が向上するのは好ましいことなので、引き続き頑張って欲しいし、応援しているが、こと、お金に絡むサービスであると批判は大きくなりがちである。
ネット関連企業は、ゼロリスク志向に陥っていないと思ったのだが、今回はややその傾向を感じるのは残念である。データセンターの名前を出して、原因がすべてそこに存在していると言わんばかりの広報は残念に思う。
リスクの割合を1%から0%にするコストは、100%を10%にするコストよりはるかに高いが、人はコストを度外視してもゼロリスクを求める非合理な意思決定をする傾向がある、といわれている。インターネット技術はこの部分をうまくカバーできるシステムであることが、大きな普及につながったと思われる。
再発防止や、システム改善が今後検討されると考えられるが、ゼロリスク志向に陥らないことを望みたい。