オープンソースカンファレンス東京2016/SpringでLTしてきました
5分だったのでかなり簡略化してますが、SparkMLlibでアニメ推薦エンジン作っているのでその発表です。
次の機会があったら10分〜20分ぐらいのスライドにするので、先行して追加の補足情報を少し書いておきます。
スライドで出てくるAnime APIとはShangriLa Anime APIのことです。
BigQueryで実行するSQLはShangriLa Toolを使い出力しています。
Query complete (25.1s elapsed, 2.36 GB processed)
でした。
次にSparkクラスタを構築します。
今回はmaster x 1 Worker x3 で 4台のマシンを用意しました。
Workerそれぞれに6Core 25GをSparkの処理に割り当てるので 合計18 Core CPU:75G memoryでSparkの機械学習並列処理を実行します。
実行中のSpark UIの様子
スライドに書かれてあるTwitter 80万ユーザー x 43作品 の推薦結果を出すのにだいたい5分ぐらいかかりました。(協調フィルタリングALSを1イテレーション)
システム全体をオンライン化、準リアルタイム化できるよう、目下改修計画中です。
Sparkによる実践データ解析 ―大規模データのための機械学習事例集
- 作者: Sandy Ryza,Uri Laserson,Sean Owen,Josh Wills,石川有,Sky株式会社玉川竜司
- 出版社/メーカー: オライリージャパン
- 発売日: 2016/01/23
- メディア: 大型本
- この商品を含むブログ (3件) を見る
- 作者: Holden Karau,Andy Konwinski,Patrick Wendell,Matei Zaharia,Sky株式会社玉川竜司
- 出版社/メーカー: オライリージャパン
- 発売日: 2015/08/22
- メディア: 大型本
- この商品を含むブログ (4件) を見る
Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク (NEXT ONE)
- 作者: 株式会社NTTデータ,猿田浩輔,土橋昌,吉田耕陽,佐々木徹,都築正宜,下垣徹
- 出版社/メーカー: 翔泳社
- 発売日: 2015/10/29
- メディア: 大型本
- この商品を含むブログを見る