Apache Sparkについて

Copyright © BrainPad Inc. All Rights Reserved.
Apache Sparkについて
2015年5月15日

1. Sparkとは
2

公式ドキュメントによると、
Apache Spark is a fast and general-purpose cluster computing system.
そのまま訳すと、「高速」と「多目的」を特徴とした分散処理システム。
MapReduceに比べて、10倍～100倍程度のパフォーマンスが出ると言われている。
 略歴
– 2009年からUC Berkleyで開発が始められる。
– 2010年にオープンソース化。
– 2013年にASFに寄贈される。
– 2014年にApache Top-Level Projectに昇格。
現在（2015/5/1時点）での最新バージョンは1.3.1。実装言語はScalaで、
Scala,Java,Pythonで使用可能。
3
Sparkとは

 インメモリによる処理
– SparkはMapReduceとは異なりオンメモリでデータ処理をするため、mapやfilterなど
の処理ごとに毎回ディスクIOが発生することはない。
 RDD
– 各ノードに分散して処理されるデータコレクションの抽象表現。
– Sparkでは、RDDに対してmapやreduceなどの処理を実行する。
– HDFSへの出力など、実際にデータが必要になるまで処理は遅延される。アクションが
起こった時に、処理の流れをたどって実際にデータロードやmapなどの処理を行う。
– RDDをメモリ上にキャッシュできるので、効率的に繰り返し処理が可能。
4
高速？

Sparkは、Spark Coreを中心としたいくつかのサブコンポーネントから成り立って
いる。
例えば、
– Spark SQL（構造化データに対して、SQLを使ってアクセス）
– Spark Streaming（Spark上でストリーミングデータを処理）
– MLlib（Spark上で機械学習）
– GraphX（グラフデータを処理）
すべてSpark Coreをベースとしているため、コードの再利用や学習コストの低下、
メンテナンス容易性の向上が期待できる。
5
多目的？

SparkはBDAS（Berkeley Data Analytics Stack）の一部。
BDASとは、AMPlabで開発されている一連のデータ処理ソフトウェアスタック。
最近よく名前を聞くMesosなんかもここに含まれている。
6
多目的？

2. RDD
7

各ノードに分散して保持されるデータコレクションオブジェクト。
Sparkでは、このRDDを通じてデータの処理フローを定義していく。
RDDは、以下の性質を持つ。
 パーティションによる分散
– データは複数のパーティションに分けられ、それぞれがクラスタ上に分散して処理され
る。
 遅延実行
– countやsaveAsTextFileなど、特定の操作が実行されるタイミングまですべての処理が
遅延される。
 障害耐性
– RDDはイミュータブルで、データの途中経過を逐一保持しない。
– データがロストした場合は、RDDを再計算することでデータを復旧する。
• ミュータブルなデータをオンメモリで保持する場合、更新のたびにレプリケーションを取る必
要があるが、この方法はネットワークへの負荷が重い。
8
RDDとは

RDDを作り出す方法は2種類ある。
1. コレクションオブジェクトから作成する。
val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)
2. 外部データソースから作成する。
val distFile = sc.textFile("data.txt")
9
RDDの作成方法

1. Transformation
既存のRDDから、変換処理などを通じて新しいRDDを作り出す処理。実行はActionが実行
されるまで遅延される。
例：map、filter、groupByKey
2. Action
Driverにデータを戻したり、外部にデータを書き込んだりする処理。Actionが実行された
タイミングで、それまで遅延されていた処理が実行される。
例：count、take、saveAsTextFile
10
RDDのインターフェース

 RDDは主に以下のデータを保持する。
– 親RDDの参照
– 担当するパーティション
• 例えばHDFSからファイルを読み込んでRDDを作った場合、そのファイルのブロックごとに
パーティションが作られる。RDDは、このパーティションの集合と、それぞれのメタデータ
（どこに配置されているかとか）を保持する。
 Transformationごとに、新たなRDDオブジェクトが作成される。
11
RDDの構造
RDD RDD RDD
transformationにより生成 transformationにより生成
参照を保持参照を保持

// 1.HDFSからデータロード
val lines = sc.textFile(“hdfs://…”)
// 2.”target”という単語を含む行に絞込
val targetLines = lines.filter(_.contains(“target”))
// 3.先頭の単語を集める
val firstWords = targetLines.map(_.split(“ “)(0))
// 4.HDFSに書き出す
firstWords.saveAsTextFile(“hdfs://…”)
12
RDD処理イメージ
上記のような処理の場合、4のActionが実行されるまではどの処理も実行されない。

// 前ページの処理続き
println(firstWords.count())
13
RDDのキャッシュ
上記は、firstWordsに対してアクションが2度実行されている。Sparkは通常、アク
ションの時にすべてを再計算するのでこのようなケースでは非効率となる。
そこで、キャッシュをする。
firstWords.cache()
println(firstWords.count())
firstWordsの途中経過が一旦メモリ上に保持され、続く２つのアクションはこの
キャッシュを使うようになり効率的に。

Copyright © BrainPad Inc. All Rights Reserved. 14
RDDのキャッシュ
filter map saveAsTextFileHDFS
filter map countHDFS
 キャッシュしない場合、全く同じ処理が2度行われる。
• HDFSからの読み込みも2回発生し、処理の間に読み込み対象が変
われば読み込む内容も変わる。
filter map saveAsTextFileHDFS
count
 キャッシュする場合、map処理までが省かれる。
cache

3. 実行モデルとスケジューリング
15

Copyright © BrainPad Inc. All Rights Reserved. 16
Sparkの実行モデル
Driver
Executor
 Driver
– ユーザープログラムをtaskに変換し、
executorに実行を命令する。
– Actionに伴いexecutorからデータを取得する。
– ユーザープログラムのmainメソッドを実行す
るJVMプロセス。driverが終了すると、Spark
アプリケーション自体が終了する。
 Executor
– driverから命令されたtaskを実行する。
– RDDのキャッシュを保持する。
– Spark起動時に起動されるJVMプロセス。
※実際には、YARNやMesosなどのクラスタマネージャ上で動作
するので、それによって実行モデルは若干異なります。
Executor
Executor

1. ユーザープログラムが、transformationを組み合わせてRDDの参照グラフを作
成する。
2. ユーザープログラムが、actionを実行する。
3. Driverが、RDDの参照グラフからStageのDAG（有向グラフ）を作成する。
– Stage
• 複数のTaskの集合。
• Shuffle（後述）が必要となるポイントでStageを分ける。
• 同じパーティションに対する処理が連続している場合、マージすることで最適化する。
– Task
• executorの実行する処理の最小単位。１パーティションごとに作成される。
4. Executorに各Stageの処理を命令する。
17
Driverによる実行計画作成

 Shuffle
– reduceByKey等により複数のパーティションを１つにまとめるため、データをある
executorから別のexecutorに転送する処理。
– 処理がローカルで済まなくなるため、パフォーマンス上のボトルネックになりやすい。
18
Shuffle
RDD
RDD
RDD
RDD
RDD
RDD
RDD
RDD
RDD
RDD
RDD
RDD
同じパーティションに閉じた処理ならシャッフルは
不要（mapなど）
別パーティションが必要になる処理では、
シャッフルが生じる。

 Stageは、Shuffleを境界として分断
される。
– このケースではjoinがShuffleを起こし
ている。
 同じパーティションに対する処理が連
続する場合、処理は１つのステージに
マージされる。（※）
– Stage1はmapとfilterの2つの処理があ
るが、実際にはmapとfilterを合成した
1つのStageに変換されている。
– これは“pipelining”と呼ばれる。
– Stageは複数のtaskで構成されており、
それぞれがexecutorで処理される。
※厳密には、親RDDが１つの子RDDからのみし
か参照されていない場合。（複数パーティション
をマージするunionもこれに該当する）
19
Stageの分割例
map filter
map
join
Stage1
Stage2
Stage3

4. その他の主要なSparkコンポーネント
20

 Sparkで、ストリーミング処理を行うためのコンポーネント。
 データは、一定間隔ごとにRDDとしてまとめられて処理される。
– このRDDのまとまりをDStreamと呼ぶ。
– Spark Streamingは一定間隔ごとにまとめられたRDDに対して処理を書くことになる
ので、書き方は通常のSparkプログラミングとほぼ変わらない。（マイクロバッチ）
21
Spark Streaming
ストリーミングデータ
RDD RDD RDD
5秒
例：5秒間隔ごとにストリーミングデータを処理する場合
5秒 5秒
DSteam

 Spark SQL
– 構造化されたRDD（SchemaRDD）に対してSQLで処理を記述するためのコンポーネ
ント。
– JSONやParquet、Hiveなどの様々なデータソースに対応。
 DataFrame
– RやPandas（Python）ライクなデータ操作が可能なコンポーネント。
– Spark1.3で追加された。
 Catalyst
– Spark SQLやDataFrameのコードを最適化するオプティマイザ（内部的に使用されて
いる）。
– 詳細についてはdatabricksのブログを参考。
• https://databricks.com/blog/2015/04/13/deep-dive-into-spark-sqls-catalyst-
optimizer.html
22
Spark SQL、DataFrame

 Sparkで機械学習を行うためのコンポーネント
 用意されているアルゴリズム例
– SVM
– ロジスティック回帰
– 決定木
– K-means
– ALS
– などなど。
 Spark Streamingと組み合わせて使うオンライン学習機もあり。
– Streaming K-meansとか。
23
MLlib

5. まとめ
24

 Sparkは、インメモリ処理による高速化と、Spark Coreをベースとした多目的な
コンポーネントを持つ分散処理ソフトウェア。
 Scala,Java,PythonでSparkアプリケーションを記述可能。
– spark shellで気軽に試せるのが良い。
 Spark上で扱うデータはRDDとして抽象化され、処理は遅延実行される。
 Spark StreamingやMLlibなど、様々なコンポーネントがあり、互いに組み合わ
せて使えるためメンテナンス性が高く総合的な学習コストも低い。
 Learning SparkやAdvanced Analytics with Sparkが発売されるなど、情報も
揃ってきた感じ。
– 日本語情報も最近は増えてきた雰囲気がある。
– 今年のStrataはSpark関連のセッションが非常に多かったという話も。
25
まとめ

 Spark公式ドキュメント
– https://spark.apache.org/docs/latest/index.html
 Learning Spark
– http://shop.oreilly.com/product/0636920028512.do
 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory
Cluster Computing
– https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf
26
参考

株式会社ブレインパッド
〒108-0071 東京都港区白金台3-2-10 白金台ビル3F
TEL：03-6721-7001
FAX：03-6721-7010
info@brainpad.co.jp
www.brainpad.co.jp

Apache Sparkについて

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Apache Sparkについて

Similar to Apache Sparkについて (20)

More from BrainPad Inc.

More from BrainPad Inc. (20)

Apache Sparkについて