1. トップ
  2. 新着ニュース
  3. 経済
  4. ビジネス

急なリソース削減、コミュニケーション不足…システム開発の専門家が振り返る「みずほ銀行」でトラブルが頻発した“本質的要因”

文春オンライン / 2022年6月25日 6時0分

写真

©iStock.com

 度重なるシステム障害で、2022年11月26日に金融庁からの業務改善命令、財務省からの措置命令を受けたみずほ銀行。しかし、そこからも三度システム障害が発生するなど、いまだ顧客の信頼を取り戻せているとは言い難い現状にある。

 2021年には他の大手銀行やスマートフォン決済企業でも様々なシステム障害が発生していたものの、なぜ、みずほ銀行でのトラブルは頻発が目立ってしまったのか。ここでは、メガバンクでシステム開発などに携わってきた遠藤正之氏の著書『 金融DX、銀行は生き残れるのか 』(光文社新書)の一部を抜粋。専門家が見たトラブルの本質的要因を紹介する。(全2回の1回目/ 後編 を読む)

◆◆◆

ATMの不稼働

 2021年2月28日、みずほ銀行の全国の店舗のATM5900台のうち、7割強に相当する4318台のATMが不稼働となった。それ以上に問題だったのは、取り引きを受け付けているにもかかわらず、突然、取り引きが中断し、通帳やキャッシュカードがATMの中に取り込まれたままになる事態が発生したことである。

 このような場合、備え付けの電話でATMセンターに連絡を取って対処することになっていた。しかし、当時ATMセンターのオペレータは8人程度しかいなかった。多くの店舗で同様の事態が一斉に発生したため、ほとんどの電話がATMセンターにつながらない状況となった。しかも2月28日は日曜日で、店舗自体も開いていなかった。顧客は止まってしまったATMが動き出し、カードや通帳が吐き出され、他の人の手に渡ってしまうのではないかと心配し、そこから離れることができなくなってしまった。

 みずほ銀行にとっては、2002年の合併直後のシステム障害、2011年の東日本大震災後の義援金振込によるシステム障害に次ぐ、3回目の大トラブルとなった。実は、2011年のシステム障害を機に新たに構築した新システムMINORIがみずほ銀行で2年前にリリースされて以来、約2年間、大きなトラブルはなかった。したがって、この新システムは安定的に稼働していると思われていたのだが、MINORIに関してはこれが初めての大きなトラブルとなった。

 このシステム障害の構図を示すのが上図である。この障害で顧客への影響が最も大きかったのは、ATMでの通帳・キャッシュカードの取り込み5244件だが、その発生には四段階の経緯があった。

大システム障害が起こった経緯

 第一に、当日臨時に行われていた定期性預金の集中処理で取り引きのINDEXファイル(取り消しや障害等に備え、取り引きを実施順にナンバリングするデータベース)がオーバーフローして、それ以降の定期性預金がすべてエラーとなる事態が起きた。この時点では定期性預金コンポーネント(システムの定期性預金部分)の障害だった。

 第二に、当日は日曜日で、営業店窓口での定期性預金取引はできないが、銀行ATMやダイレクト(顧客がインターネットバンキングで直接アクセスする取引形態)からは定期性預金の取り引きを受け付けるべきところ、取り引きのINDEXファイルがオーバーフローした結果、銀行ATMやダイレクトからの定期性預金取引がすべてエラーになった。

 第三に、そのようなエラーが累積し、取引メイン(どの商品サービスを、どのような順番で処理していくかを制御するシステムの司令塔)と呼ばれるシステム(MINORI)の中枢部で防衛機能が作動し、ATMやダイレクト取引を司る処理区画でシステムのダウンが順次起きた。この段階で、銀行システムの中枢部の障害に発展した。なお、処理区画はATMが60区画、ダイレクトが39区画に分かれており、システムが区画を割り当てていた。

 第四に、システムのダウンが発生した区画でATMの取り引きが発生した場合、ATMの防衛機能により、定期性預金取引に限らず、通帳やキャッシュカードの取り込みが発生した。また同様にシステムのダウンが生じた区画にダイレクト取引が発生すると、ダイレクト取引でも取り引きがエラーとなった。この段階で、自行ATMチャネルやダイレクトチャネルの障害にまで発展した。取引メインで、全面的なダウンを避けるためにダウンを局所化させる設計だったが、顧客が区画を選択できるわけではないため、ATM側では、むしろ混乱を招く結果となった。

連続して発生したシステム障害

 その後もみずほ銀行では、同年3月3日に機器故障によるATMの障害、3月7日にプログラムエラーによる障害、3月11日から12日に機器故障による外為送金の遅延と顧客影響ある障害が連続して発生した。3月17日にはシステム障害特別調査委員会が立ち上げられ、6月15日にはその報告書の公表と合わせて再発防止策が公表された。

 一旦、障害に区切りがついたと思われたところ、8月19日から20日には機器故障によって全国の店頭業務ができないという障害が発生した。さらに8月23日にネットワーク不安定によるATMの障害、9月8日に機器故障によるATMの障害が発生した。

 9月22日、監督官庁である金融庁からは、みずほ銀行とみずほフィナンシャルグループに対して当面のシステム更改、および更新等の計画の提出を求める業務改善命令が発出された。

 9月30日には、システムの処理速度低下による外為送金の遅延の障害が発生した。11月26日には、金融庁から業務改善命令がみずほ銀行とみずほフィナンシャルグループに発出された。また、財務省から同日に9月30日の障害時の外為送金の取り扱いが、外為法上不適切であるとして是正措置命令が発出された。その後も12月30日、2022年1月11日、2月11日にもトラブルが発生した。

 このみずほ銀行の連続障害の原因を掘り下げていくと、次の五点に集約できるのではないかと考えられる。

 第一に、MINORIのアーキテクチャの複雑性、第二に、保守運用フェーズでのリソース削減が急であったこと、第三に、経営とIT現場とのコミュニケーションが不十分だったこと、第四に、システム関連の銀行組織、開発会社、運用会社が連携しにくい体制であること、第五に、機器の所有を各ベンダーとしたことが挙げられる。順に見ていこう。

MINORIのアーキテクチャの複雑性

 大規模システムでは、マルチベンダー(多数のITベンダー企業が開発を分担すること)となることは不可避である。マルチベンダー自体は問題ではない。むしろ勘定系システムの本体部分が、四つの異なる基盤システムで構成されている点が問題である。

 それぞれのOS(Operating System、基本ソフトウェア)も異なり、データベース管理システムも異なっている。それぞれの専門家はいても、その相違点を十分に理解できる専門家はほぼいないのではないかと考えられる。基盤をまたぐ障害に対応するためには両方の専門家が参画する必要があるが、そうなると対応するスピードはどうしても遅くなってしまう。特に社内にスキルの高い専門家が常駐していればいいが、そうでない場合、対応スピードはさらに落ちてしまう。第二の原因によるリソース削減で、スキルの高い専門家は常駐していなかったと推測される。

保守運用フェーズでの急なリソース削減

 大型プロジェクトの場合、リリース直後に障害が発生する。みずほ銀行のシステムリリースは実質的に2019年2月だった。それから約2年たって、システム障害が発生したことに着目すべきである。有識者である各ベンダーの専門家をそれまでは引き留めていたが、リソース削減策の中で引き留めができなくなり、十分な引き継ぎもできず、障害の予兆管理能力や発生後の対応力が低下したと考えられる。

経営とIT現場のコミュニケーション不全

 経営者とシステム開発の現場のリスク感覚に関する意思疎通ができていなかったことも、大きな原因と考えられる。システム部門の総責任者をCIO(Chief Information Officer)という。CIOは本来、経営トップの方針をシステム部門に伝えることと、システム部門の状況を経営トップに伝える双方向の役割がある。

 しかしながら、2019年4月にみずほのCIOに就任した人物は人事や企画畑が長く、システムには精通していない人物だった。そのため、経営トップの方針をシステム部門に伝える役割だけが機能して、システム部門の視点での適切な進言を経営トップにすることができなかったと考えられる。その結果、システム部門の感覚では、リスクが高まるレベルまで人員やベンダーの要員を削減してしまったのではないか。

 2021年6月に公表されたシステム障害調査報告書でも、3ページ(114ページから116ページ)にわたって、アンケート調査やホットラインで受け取った意見がまとめてあり、そのことが裏付けられる。

連携しにくい体制、伝達方法

 みずほ内部が、みずほ銀行と開発会社の二層構造になっている点や、開発会社(みずほリサーチ&テクノロジーズ)と運用会社(MIデジタルサービス)の資本関係が異なる点等、組織的に複雑で、スムーズな連携を阻害している。

 またIT関連会社の再編により、保守体制が弱まった可能性がある。一つは、2020年6月に日本IBMの資本を入れた運用会社MIデジタルサービスを設立した再編である。もう一つは、2021年2月から3月にかけて4件の障害が起きたにもかかわらず、2021年4月にシステム開発を行ってきたみずほ情報総研が、リサーチ会社であるみずほ総合研究所と合併し、みずほリサーチ&テクノロジーズを設立した再編である。

 さらに、障害発生時の運用会社でのエラーメッセージの検知体制や、運用会社から開発会社への伝達方法が、印刷したうえで電話での口頭の連絡によるなど、アナログ的な手法であったことで、大量のエラーが発生した場合の対応が不十分になる素地があった。

◆◆◆

 当記事では、5つの本質的要因のうち、4つ目までを紹介。更にご興味がある方は、以下書籍を参照下さい。

〈銀行の“リアル”な現状〉減り続ける人員、店舗… 日本の銀行各社はこれからどのような道を辿っていくのか へ続く

(遠藤 正之)

この記事に関連するニュース

トピックスRSS

ランキング

ミッション中・・・

10秒滞在

記事を最後まで読む

ミッション中・・・

10秒滞在

記事を最後まで読む

デイリー:参加する
ウィークリー:参加する
マンスリー:参加する
10秒滞在

記事を最後まで読む

次の記事を探す

エラーが発生しました

ページを再読み込みして
ください