Azure HDInsight Preview を試してみる
今更感があるのですが、HDInsight 関連でまだ新しい動きがないので、Azure の HDInsight を少し試してみます。現在は Preview 版のため、Windows Azure ポータル上からは使用することができません。使用するには、ここから Preview 版 の申し込みを行う必要があります。
『 try in now 』をクリックすると、下記の画面が表示されます。右下のボタンをクリックすると Preview の申し込みが完了します。
リクエストが承認されるまで、使用することはできません。
しばらく待ちましょう。承認されるまで2日間程度かかるようです。承認されると下記のようなメールが届きます。
Windows Azure の HDInsight のメニューがアクティブになります。
HDInsight を使用するには、ストレージアカウントを作成する必要があります。下記の画面よりストレージアカウントを作成します。URL を指定し、場所を指定します。ストレージアカウントをサポートしているのは『北ヨーロッパ』のみのようなので、場所は、『北ヨーロッパ』を選択するようにしてください。入力したら、ストレージアカウントの作成をクリックしてください。
ストレージアカウントの作成が完了しました。
次に、HDInsight サービスを作成します。Preview版なのかどうかはわかりませんが、『新規作成』メニューからうまくクラスターを作成することができません。『カスタム作成』メニューでクラスター作成するようにしてください。
※2013.8.28 追記
Partner Technical Days で HDInsight のセッションに参加しましたが、まだ新規作成からのクラスタ作成はできないみたいですね。発表された方もデモの中で何故できない?みたいな感じでした。
『カスタム作成』をクリックすると、下記のような画面が表示されますので、クラスター名を入力し、→をクリックします。
クラスターユーザーを作成します。ID および パスワードを入力し、→をクリックしてください。
特に変更しなくてもかまいません。右下の確定ボタンをクリックします。
HDInsight クラスターの作成が完了すると下記のような画面になります。実行中のサービスをクリックして、下部メニューのクラスターの管理をクリックします。
HDInsight 管理サービスへのログイン画面が表示されます。設定した ID およびパスワードを入力し、ログインします。
ログインが完了すると、下記のような画面が表示されます。Windows Server 上にインストールしたHDInsight サービスとまったく同じ UI ですね。
ここで、以前 Windows Server 上で検証したサンプルを動作させてみたいと思います。サンプルをまずは Azure 上にアップしてみたいと思いましたが......ハードディスクに格納していたHDInsight サービスの検証をしていた仮想サーバが消えていました!!ショック!最初からプログラムやり直しです。過去の HDInsight 関連記事を参考にして作りなおして試してみようかと思いましたが、時間がないので今回はやめておきます。
HDFSへの配置、サービスの実行は Windows Server 上で動作させる場合と変わりません。資源を配置するにはWindows Azure ポータルよりリモートデスクトップで接続します。実行中の HDInsight サービスをクリックし、下部の接続をクリックします。
リモートデスクトップで仮想サーバにログインすると、HDInsight 環境が設定された状態になっています。Node Status、Hadoop Command Line などの見覚えのあるショートカットが並んでいます。OSは Windows Server 2008 R2 Enterprise Editionなんですね。Preview版だからでしょうか。
何もやらないのも勿体ないので、作成した Hadoop 環境を用いて、サンプルを動作させてみます。HDInsight の管理ポータルから、Samples をクリックします。
WordCount のサンプルを実行させてみたいと思います。WordCount をクリックします。WordCount をクリックします。
JavaScript でも設定できるのですが、『Deploy to your cluster』をクリックすることが簡単に適用することが可能です。
『Execute Job』 をクリックします。
Job が実行されます。
Mapジョブ、Reduceジョブの状態も確認することが可能です。
さらに詳細な動作を確認したい場合は、リモートデスクトップでサーバにログインし、Hadoop Name Node Status や Hadoop MapReduce Status から詳細を確認することができます。下記の画面は、語数を数えた結果のログです。
正式リリース後に再度検証してみようかと思います。(消えてしまったソースの復活も....)