2月

18
HDP・HDFをさわってみる（初心者向け）
Horontowkrsが提供するデータ分析プラットフォームの勉強環境構築をやってみよう

主催 : akimitsu_takagi

ハッシュタグ：#BCI_HDP_20170218

募集内容	通常枠 1000円（会場払い）先着順 12/15人バランスボール枠 1000円（会場払い）先着順 2/4人
申込者	申込者一覧を見る
開催日時	2017/02/18(土) 10:00 ～ 18:00 Googleカレンダー icsファイル
募集期間	2017/01/27(金) 00:00 〜 2017/02/17(金) 12:00まで
会場	ブレインズコンサルティング株式会社東京都中央区日本橋人形町3-3-13(ユニゾ人形町フォレストビル8F) マップで見る会場のサイトを見る

イベントの説明

はじめに

シンギュラリティに備えろ！AI・ビッグデータ勉強会は、AI・ビッグデータに関する勉強会を行うためのコミュニティです。いずれ来ると言われているシンギュラリティに備え、AIに使われるのではなくAIを作る側に回り、楽しく仕事をしたいエンジニア・サイエンティストを支援するために、ブレインズコンサルティング株式会社の有志メンバーを中心に、たちあげました
今回は、Hadoopのディストリビューションの一つである、Hortonworks様が提供する、データ分析プラットフォーム「Hortonworks Data Platform(HDP)」とデータ収集プラットフォーム「Hortonworks DataFlow(HDF)」のハンズオンを開催したいと思います

勉強会の目的・位置づけ

今回の勉強会は、HDPのTutorialの「Learning the Ropes of the Hortonworks Sandbox」に座学によるHDPとSparkの基礎、HDFに関する簡単なハンズオンをつけたものになります
今回の勉強会の目的
- 「Hadoop/Spark」の初心者に対して、Hadoopエコシステムの全体感やSparkの基礎知識を理解してもらう
- 自己の勉強環境としてHDP(Hortonworks Data Platform)のSandboxのインストールを行う
- HDPのコンポーネントのなかで代表的なもの（Spark、Zeppelin、Ambari）とHDFについて、さわってみる

日時

2017/2/18（土）10:00 - 18:00 受付: 9:30

場所

ブレインズコンサルティング株式会社東京都中央区日本橋人形町3-3-13　ユニゾ人形町フォレストビル８F

参加費

1,000円（飲み物、懇親会費用含む）

事前準備

仮想環境：VirtualBox、VMwareのいずれかがインストールされたPCをご用意ください
Sandboxダウンロード：VirtualBox、VMware用の何れかのHortonworks Data Platfrom (HDP) 用(Sandbox)をご自身の環境にダウンロードしておいてください（ダウンロードサイト）。ダウンロードを忘れた方にはUSBメモリ等で配布いたしますが、出来るだけのご協力をお願いいたします。インストールは当日行いますので、ダウンロードだけで結構です
WiFi環境について：WiFi環境は準備する予定ですが、複数名で共有する関係上パフォーマンスが悪い可能性がありますのでご了承ください。可能であれば、ご自身でご用意頂けると助かります

注意

受付票と名刺をお持ち下さい。受付票に記載の本人のみが参加できます。受付票をお持ちでない方は入場できません。受付票はスマートフォンでの提示でも入場できます

スケジュール

タイトル	時間
HDP/Sparkに関する基礎知識	10:00～13:00
ハンズオンセミナー	14:00～16:30
懇親会	16:45～18:00

個人情報の取り扱い

今回収集した個人情報は、勉強会の企画・改善等に活用させて頂きます。そのほかの商用利用には使用いたしません

その他

プログラム内容は予告なく変更する可能性がございます
開催中の事故・天災・その他の事象によってもたらされたすべての不利益に関して、当セミナー主催者、および会場提供者はその責任を負いかねます。
参加をキャンセルされる場合は、事前にキャンセルの実施をお願いします。当日のキャンセルや無断欠席をされた方は、今後の参加をお断りすることもございます

お問い合わせ

email: bci-rfs@brains-consulting.co.jp

発表者

akimitsu_takagi

資料資料をもっと見る／編集する

フィード

akimitsu_takagi さんが書き込みました。

2017/02/18 15:10

df2.select('section as "section_name" ).show()

akimitsu_takagi さんが書き込みました。

2017/02/18 15:10

df2.distinct().count()

akimitsu_takagi さんが書き込みました。

2017/02/18 15:10

df2.count()

akimitsu_takagi さんが書き込みました。

2017/02/18 15:10

df2.select('section, $"name", df2("bonus"), col("bonus")).show()

akimitsu_takagi さんが書き込みました。

2017/02/18 15:09

df2.sort('section.desc, 'name.desc).show()

akimitsu_takagi さんが書き込みました。

2017/02/18 15:09

df2.filter('section==="営業一課").show()

akimitsu_takagi さんが書き込みました。

2017/02/18 15:05

df2.groupBy("section").agg( avg("bonus")).show()

akimitsu_takagi さんが書き込みました。

2017/02/18 15:04

import org.apache.spark.sql.types.{StructType,StructField,StringType, IntegerType}; val schema = StructType(Array( StructField("section" , StringType, false ), StructField("name" , StringType, false ), StructField("bonus" , IntegerType, false ) )) val df2 = sqlContext.createDataFrame( rdd6, schema ) df2.collect().foreach(println)

akimitsu_takagi さんが書き込みました。

2017/02/18 15:04

import org.apache.spark.sql.Row val rdd6 = sc.parallelize( Seq( Row( "営業一課", "高木", 500000), Row( "営業一課", "田中", 650000), Row( "営業一課", "佐藤", 530000), Row( "営業二課", "高橋", 700000), Row( "営業二課", "小島", 300000) ))

akimitsu_takagi さんが書き込みました。

2017/02/18 15:00

df.registerTempTable("sample_table") val output2= context.sql("SELECT score * 2 FROM sample_table").show()

akimitsu_takagi さんが書き込みました。

2017/02/18 14:59

import org.apache.spark.{SparkContext, SparkConf} val context = new org.apache.spark.sql.SQLContext(sc) // prepare data val data = Seq((2.0, "hoge"), (4.0, "fuga")) //score, nameというカラム名をもったDataFrameを作成 val df = context.createDataFrame(data).toDF("score", "name") //データ抽出 val output= df.select("score").map(_.getDouble(0) * 2).collect().foreach(println)

Tatsuya さんが書き込みました。

2017/02/18 14:51

zeppelin以外にもjupyterやrstudioが使えます

Tatsuya さんが書き込みました。

2017/02/18 14:49

https://datascientistworkbench.com/

akimitsu_takagi さんが書き込みました。

2017/02/18 14:32

val rdd5 = rdd4.map{ case( section, (sumbonus,n) )=>( section, sumbonus/n.toDouble ) } rdd5.collect().foreach(println)

akimitsu_takagi さんが書き込みました。

2017/02/18 14:31

val rdd4 = rdd3.reduceByKey{case((bonus1,n1),(bonus2,n2))=>(bonus1+bonus2,n1+n2)} rdd4.collect().foreach(println)

akimitsu_takagi さんが書き込みました。

2017/02/18 14:31

val rdd3 = rdd2.map{case( section, name, bonus )=>( section, (bonus,1) ) } rdd3.collect().foreach(println)

akimitsu_takagi さんが書き込みました。

2017/02/18 14:31

val rdd2 = sc.parallelize(List( ("営業一課", "高木", 500000), ("営業一課", "田中", 650000), ("営業一課", "佐藤", 530000), ("営業二課", "高橋", 700000), ("営業二課", "小島", 300000) ) ) rdd2.collect().foreach(println)

akimitsu_takagi さんが書き込みました。

2017/02/18 14:24

import org.apache.spark.rdd.RDD import org.apache.spark.{SparkContext, SparkConf} // prepare data val data = Seq((2.0, "hoge"), (4.0, "fuga")) // RDD作成（定義済みのcontextをそのまま使用する） val rdd: RDD[(Double, String)] = sc.parallelize(data) //map内の処理がクラスタ内で分散処理される。 val reducedData = rdd.map(d => d._1 * 2) reducedData.collect().foreach(println)

akimitsu_takagi さんが書き込みました。

2017/02/18 13:35

curl -o install-nifi.sh https://raw.githubusercontent.com/hortonworks/tutorials/hdp/assets/realtime-event-processing/install-nifi.sh

akimitsu_takagiさんが資料をアップしました。

2017/02/18 12:08

akimitsu_takagiさんが資料をアップしました。

2017/02/18 12:08

akimitsu_takagiさんが資料をアップしました。

2017/02/18 12:07

akimitsu_takagi さんが書き込みました。

2017/02/18 11:29

http://hortonworks.com/downloads/#sandbox

Tatsuya さんが書き込みました。

2017/02/18 09:51

すみません、到着30分程遅れます。

akimitsu_takagiさんが資料をアップしました。

2017/02/18 09:46

akimitsu_takagiさんが資料をアップしました。

2017/02/18 09:45

akimitsu_takagiさんが資料をアップしました。

2017/02/18 09:45

akimitsu_takagi さんが HDP・HDFをさわってみる（初心者向け）を公開しました。

2017/01/26 16:00

HDP・HDFをさわってみる（初心者向け）を公開しました！

akimitsu_takagi さんが HDP・HDFをさわってみる（初心者向け）を公開しました。

2017/01/26 14:44

HDP・HDFをさわってみる（初心者向け）を公開しました！

2月

18
HDP・HDFをさわってみる（初心者向け）
Horontowkrsが提供するデータ分析プラットフォームの勉強環境構築をやってみよう

イベントの説明

はじめに

勉強会の目的・位置づけ

日時

場所

参加費

事前準備

注意

スケジュール

個人情報の取り扱い

その他

お問い合わせ

発表者

資料資料をもっと見る／編集する

フィード

グループ

イベントへのお問い合わせ

会場

管理者

参加者（14人）

キャンセルした人（11人）

2月 18 HDP・HDFをさわってみる（初心者向け） Horontowkrsが提供するデータ分析プラットフォーム の勉強環境構築をやってみよう

イベントの説明

はじめに

勉強会の目的・位置づけ

日時

場所

参加費

事前準備

注意

スケジュール

個人情報の取り扱い

その他

お問い合わせ

発表者

資料 資料をもっと見る／編集する

フィード

グループ メンバーになる

イベントへのお問い合わせ

会場

管理者

参加者（14人）

キャンセルした人（11人）

2月

18
HDP・HDFをさわってみる（初心者向け）
Horontowkrsが提供するデータ分析プラットフォームの勉強環境構築をやってみよう

資料資料をもっと見る／編集する

グループ