導入編~Hadoopクラスタを構築するまで

EnterpriseZine / 2012年10月9日 0時0分

図5:ホスト名「node04」がEthernet側のNICに名前解決されているため、Ethernet側で通信してしまう。

「全てのDBコア技術を知りたいなら!これしかない!」10月に開催されるdb tech showcaseでは、数々のコアな話が飛び出します。筆者もそれに参戦すべく、R&D専用の高速クラスタマシン「Insight Qube PYTHON」を使ってHadoopをぐりぐり動かし、Twitterを分析しちゃいます!

■Hadoopを気持ちよく使っていますか?

 突然ですが、DBエンジニアのみなさま、Hadoopは使っていますか?バリバリ使っているよ!という方がいらっしゃる一方で、そろそろ新しい技術にも触れなければと焦って手元の環境にHadoopをインストールしたものの、特に使い道が思い浮かばずHDFSにファイルをアップロードしたりベンチマークを動かしたりしただけであとは放置、という方も多いのではないでしょうか。かくいう私もそうでした。しかも、もっさりとしか動かない仮想環境にこぢんまりと1台クラスタ(ってクラスタではないですね)を作ってデータ量を気にしながらちまちまと動かしていたので、使っていてもちっとも気持ちよくない!使っていて気持ちがよくなければいい発想も生まれませんね。

 そんな折、10月に開催される「db tech showcase」の発表のために「Insight Qube PYTHON」でHadoopクラスタを組んでみることにしました。実際に組んでみると、速い!サクサク動く!クラスタの各ノードが一斉にジョブを実行する様が壮観!と、すっかり気持ちよくなってしまいました。そこで、一丁このHadoopクラスタでバリバリ分析してやろうか!と、勢いに任せてHadoopのジョブをぐりぐり動かしてTwitterのデータを分析した、その過程を今回の連載でお見せします。第1回は導入編として、今回使ったHadoopクラスタを構築するまでをご紹介します。

 ※「Insight Qube PYTHON」とは
 たった8台。でも100台分のパワー。HadoopのR&Dを誰にでも可能にしたマシンです。詳しくはこちら。

■Hadoopクラスタを作ってみよう

 ではさっそくHadoopのクラスタを作ってみましょう。今回は以下の構成のマシンを8台用意しました。

 CPUはコア数が多いものを用意し、かつSSDを使用してI/O待ちを排除することでHadoopの並列処理がフルに生かされるようにします。また、ノード間通信にはInfiniBandを使用し、ネットワークI/O待ちも排除しています。今回はIPoIB(IP over InfiniBand)というプロトコルを使うことで、Gigabit Ethernet使用時と変わらない使い勝手としています。

  • 前のページ
    • 1
    • 2
  • 次のページ
EnterpriseZine

トピックスRSS

ランキング