投稿日:2017/05/30 更新日: 雑記

【書籍紹介】ITエンジニアのための機械学習理論入門

著者 :中井 悦司
出版社:技術評論社
発売日:2015/10/17
Amazon

概要

機械学習のアルゴリズムとして、回帰分析(最小二乗法、最尤推定法、ベイズ推定)、分類(パーセプトロン、ロジスティック回帰)、クラスタリング(k平均法、EMアルゴリズム)を取り上げ、各アルゴリズムが具体例ベースでわかりやすく説明されています。本書で特に良かったと感じた点は以下の二つです。

  • 全てのアルゴリズムを共通のフレームワークを用いて説明している。
  • モデル化する際は、ある程度割り切って仮説を立て、結果を検証することの重要性を説明している。

以下、それぞれをもう少し具体的に書きます。

共通のフレームワーク

パラメトリックモデルにおいて、本書では、モデル(数式)を決定するまでの3ステップを次のように紹介しています。

(1)パラメーターを含むモデル(数式)を設定する
(2)パラメーターを評価する基準を定める
(3)最良の評価値を与えるパラメーターを決定する

その上で、本書で扱う全てのモデルを、このステップに当てはめて説明しています。特にステップ(2)では、評価基準として①真の値との誤差に基づく指標を使うか、②学習データの生起確率(尤度)に基づく指標を使うか、という観点から各アルゴリズムの特徴が述べられており、アルゴリズム間の関係性が非常に良く理解できます。たとえば分類問題では、パーセプトロンは①に相当(誤って分類されたデータの誤差の和を使用)し、ロジスティック回帰は②に相当(ベルヌーイ分布を用いた尤度関数を使用)しています。
ステップ(3)では、パーセプトロンであれば確率的勾配降下法、ロジスティック回帰であればニュートン・ラフソン法、といったように、アルゴリズムごとにパラメータの求め方を紹介しています。

モデル化する際の割り切りの重要性

たとえば、最尤推定法を用いた回帰分析を行う際は、正規分布に基づく誤差が含まれるという仮説を立て、尤度関数を求める、ということがよく行われます。正規分布以外にも、同じ平均と標準偏差を持ったt分布やロジスティック分布なども可能性として考えられるのに、なぜ正規分布を採用するのか、という疑問に対して、著者は以下のように答えています。

あらゆる可能性にこだわっていては、先に進むことができません。まずは、何か1つ仮説を立てて、そこから有益な結果が得られるかを検証することが大切です。(中略)もしも有用な結果が得られない場合は、その理由を分析して、新たな仮説を立てることになります。(中略)データサイエンスは、あくまでも、仮説/検証を繰り返す科学的アプローチです。まずは、シンプルな仮説をもとにして、「なぜその仮説ではうまくいかないのか」ということを解明することで、データに隠されたより本質的な事実を発見していくことが可能になります。

実際のデータを観察することで妥当そうな仮説を立てることは重要だと思いますが、良さそうな仮説が思いつかずに手が止まるぐらいなら、まずは割り切って単純な仮説を使いながら試行錯誤していくことの重要性を述べており、本書の中でも最も印象に残った記述のひとつです。

まとめ

本書には「数学徒の小部屋」と名付けられたコラムが複数あり、数式を用いてアルゴリズムの詳細等を説明しています。まずはコラムを飛ばしてでも、アルゴリズム間の関係を把握できるようになると良いのではないでしょうか。
特に上記で述べたフレームワークに慣れ、論文を読む際に各セクションがどのステップに相当するのかを意識しながら読むことで、論文で提案されている手法の特徴がより理解しやすくなるのではないかと思います。


-雑記
-,

関連記事

日本語論文で修正された表現

TODの著者校正の際に,編集者から修正されていた表現の一覧. 漢字 → ひらがな 全て → すべて 従って → したがって 無い → ない 辿り着く → たどりつく なり得る → なりうる 捉える → …

【書籍紹介】Pythonによる機械学習入門

編者 :株式会社システム計画研究所 出版社:オーム社 発売日:2016/11/30 Amazon 概要 最近Pythonを勉強し始めて、Pythonで機械学習を扱っている書籍を色々購入した中で読んだ一 …

【書籍紹介】1秒って誰が決めるの?: 日時計から光格子時計まで

著者 :安田 正美 出版社:筑摩書房 発売日:2014/6/4 Amazon 概要 著者は産総研の研究者で、「イッテルビウム光格子時計」と呼ばれる高精度な時計の研究開発に取り組んでいます。本書は時計の …

PAKDD2017 参加報告

PAKDD2017が韓国の済州島にて5月23日から26日の4日間に渡って開催されました。参加者の多い国は韓国(90名)、中国(55名)、日本(25名)、オーストラリア(17名)、インド(16名)、アメ …

DEIM2017で発表した主著論文が最優秀論文賞を受賞しました

データベースコミュニティにおける最大の国内会議DEIM2017で発表した主著論文「Songrium派生要因分析:N次創作活動のモデル化による派生要因鑑賞サービス」が最優秀論文賞を受賞し、2017年6月 …