目指せHadoopエンジニア-管理者・DBエンジニア編-

EnterpriseZine / 2012年7月25日 0時0分

前編の「開発者編」では、Apache Hadoop(以降Hadoop)の歴史と概要に加え、開発者に必要な知識を客観的に証明できる認定資格、CCDH(Cloudera Certified Developer for Apache Hadoop)を紹介しました。後編では、Hadoopの管理者に求められる知識に加え、Hadoopの管理者向け認定資格、また最近のHadoop関連の話題とカラム指向分散データベースであるApache HBaseの紹介、およびHBaseの認定資格を紹介します。

■Hadoopの管理者に求められるもの

 前編で紹介したように、Hadoopでは一台から数千台規模のクラスタを構築することが可能であり、必要に応じてスケールアウトさせることができます。Hadoopは非常に強力ですが、管理するのはそれほど簡単ではありません。言い換えると、正しい知識を持たずに運用すると、大きなトラブルが生じる可能性があると言うことです。

 少し脚色していますが実際のトラブルの例をご紹介しましょう。

 【トラブルの例】

 前編で紹介したHadoopの分散ファイルシステムであるHDFS(Hadoop Distributed File System)には、分散したデータの配置情報(データがどのマシンに記録されているのかを表す管理情報:以降メタ情報と呼びます)などを管理するノード(ネームノード)と、実際に分散されたデータを管理するノード(データノード)群とがあります。前者のメタ情報は非常に重要で、この情報が消えてしまうと、分散しているデータの置き場所がわからなくなってしまいます。つまり、バラバラになったデータを組み立てられなくなってしまうのです。

 このメタ情報はサーバーの起動時に読み込むためディスクにも記録されるのですが、あるトラブルではマシンのディスク障害によりメタ情報が失われてしまったというものでした。定期的にバックアップをするという運用方法もあるのですが、バックアップ間の更新分が全て失われてしまうリスクが生じます。また、バックアップのタイミングによってはファイルの整合性の問題が生じる場合があるのです(中途半端にファイルが破損してしまうなど)。

 これは正しく管理すれば防げる問題です。メタ情報の保存先は複数指定ができるので、管理者が正しく複数のディスクやNFS上のディレクトリを指定することで回避できるのです。

  • 前のページ
    • 1
    • 2
  • 次のページ
EnterpriseZine

トピックスRSS

ランキング