投稿日:2017/05/01 更新日: 雑記

【書籍紹介】Pythonによる機械学習入門

編者 :株式会社システム計画研究所
出版社:オーム社
発売日:2016/11/30
Amazon

概要

最近Pythonを勉強し始めて、Pythonで機械学習を扱っている書籍を色々購入した中で読んだ一冊です。Amazon等の内容紹介では「初心者でもPythonを用いて機械学習が実装できる」と書かれていますが、機械学習の手法を一から実装するのではなく、機械学習用のライブラリを使って、データの読み込みから結果の出力までが実装できる、という意味です。本書で優れていると思ったのは以下の二点です。

  • Pythonを使って実行できる機械学習がカタログ的に端的に紹介されている。(3章~5章)
  • 現実世界のデータに機械学習を適用する際に、精度を上げるための試行錯誤の過程が記述されている。(6章~7章)

以下でそれぞれについてもう少し詳細を述べます。

機械学習のカタログ的紹介

3章では分類問題の手法として決定木、Random Forest、AdaBoost、SVMを取り上げ、4章では回帰問題の手法としてSVM、Random Forest、k近傍法を扱っています。5章ではクラスタリングとしてk-means、階層的凝集型クラスタリング、affinity propagationを紹介しています。
いずれの手法も、1.データの読み込み、2.手法の適用、3.結果の出力、という流れに沿ってコードと共に紹介されています。コードをすらすらと追うにはnumpyの知識がそれなりに要求されますが、コメントが豊富なので、何をやっているかはnumpy初心者でも十分に理解できます。各手法の大まかな説明はありますが、手法自体を初めて知った人がこの書籍だけで理解するのは若干辛いように思います。機械学習の手法をわかりやすく説明した書籍やWebページは色々あるので、この書籍は「Random Forestを使いたいけどPythonではどうやるんだっけ」というような時に、さっと使い方を見るという、カタログ的な使い方をするのが適しているのではないでしょうか。

精度向上のための試行錯誤

機械学習を用いた、より実践的な課題として、6章では画像による手形状分類、7章ではセンサデータによる回帰問題に取り組んでいます。いずれの章でも、まずは最もナイーブな方法を試みて、そこから精度を上げるための「泥臭い」作業を色々と紹介している点が参考になりました。本書では、データのクレンジング、欠損値に対する対応、特徴量の取捨選択、ハイパーパラメータのグリッドサーチなどが行われています。いかにも良さそうな特徴量を追加したのに精度が上がらなかった失敗例を記述している点も、実際の試行錯誤の大変さを知るために効果的だと思いました。

論文では、最も上手くいった方法だけを記述して、途中の試行錯誤の段階は表に出づらかったり、一言でさらっと述べて終わったりというのが一般的です。その裏側でどんな地道なことが行われているかを垣間見れる、という点では、Pythonユーザ以外にとってもこの二つの章は有用ではないでしょうか。

まとめ

本書の優れている点として二点挙げましたが、後者の方に本書の価値をより感じました。
巻末には付録として、機械学習の手法自体の実装やその理論的背景に関する記述もありますが、ごく簡単な説明しかないので、この辺のことを初歩から学びたければ、「ITエンジニアのための機械学習理論入門」(Amazon)などを読むのが良いと思います。この書籍の紹介はこちら


-雑記
-, ,

関連記事

PAKDD2017 参加報告

PAKDD2017が韓国の済州島にて5月23日から26日の4日間に渡って開催されました。参加者の多い国は韓国(90名)、中国(55名)、日本(25名)、オーストラリア(17名)、インド(16名)、アメ …

【書籍紹介】1秒って誰が決めるの?: 日時計から光格子時計まで

著者 :安田 正美 出版社:筑摩書房 発売日:2014/6/4 Amazon 概要 著者は産総研の研究者で、「イッテルビウム光格子時計」と呼ばれる高精度な時計の研究開発に取り組んでいます。本書は時計の …

SoC2017 参加報告

2017年6月23日と24日にリクルートテクノロジーズで開催されたSoC2017に参加しました。SoCは「ソーシャルコンピューティング」を指しており、ソーシャルコンピューティングとは、SNSを始めとし …

日本語論文で修正された表現

TODの著者校正の際に,編集者から修正されていた表現の一覧. 漢字 → ひらがな 全て → すべて 従って → したがって 無い → ない 辿り着く → たどりつく なり得る → なりうる 捉える → …

【書籍紹介】 完全独習 統計学入門

著者 :小島 寛之 出版社:ダイヤモンド社 発売日:2006/9/28 Amazon 概要 表紙のデザインからすると、統計学に関する堅めの内容の本だと思ってしまいそうですが、実際に読んでみると、中学ま …