「JJUG ナイト・セミナー 機械学習・自然言語処理特集!」に参加してきました
Java でカジュアルにはじめる機械学習
スマートニュース株式会社の小宮篤史さんによる発表。
Javaから使える機械学習ライブラリ
とりあえず機械学習をやってみるときのデータセット
Spark/MLlibではじめるスケーラブルな機械学習
株式会社エヌ・ティ・ティ・データの猿田浩輔さんによる発表。
- 従来の機械学習ライブラリの大量データの扱いに関する課題
- 計算量やIO量が増えるが現実的な時間で処理を完了させる必要がある
- 大量のデータをどこに蓄積するか
- 従来の機械学習ライブラリは単一マシンでの動作を前提としていた
- Apache Hadoopとは
- HDFSとHadoop MapReduce
- Apache Mahoutの登場
- KMeansはMapReduceでどのように処理されるか
- Apache Sparkとは
- スループットとレイテンシの両立が必要な問題領域にアプローチするために開発された
- SparkはRDDと呼ばれるフォールトトレラント性を考慮した分散コレクションに対しmapやreduceなど繰り返して目的を達成する
- Hadoopの分散リソース基盤YARNの上で動く
- RDDの変換チェインで複雑な処理でも1つのジョブで定義できる
- Sparkのエコシステムの1つであるMLlib
Luceneと日本語の検索
Elasticsearch社の大谷純さんによる発表。