アンサンブル学習を超わかりやすく解説【機械学習入門30】

こんにちは，米国データサイエンティストのかめ(@usdatascientist)です．

データサイエンス入門の機械学習編第30回です.(講座全体の説明と目次はこちら)

ついに本講座も30回突破です．．．あと数回で終われると思います^^;

今回の記事ではアンサンブル学習というものを紹介します．

これは，複数のモデルを組み合わせて最終的な予測値を出すやり方で，一般的にかなり高い精度を期待することができます．

追記) 機械学習超入門本番編ではアンサンブルについてさらに詳しく解説をしています．さらに理解を深めたい方は是非受講ください:)

いまや機械学習をする際には必ずと言っていいほど使われる手法で，Kaggleなどのコンペの上位にくるようなモデルはほとんどこのアンサンブル学習を使っているといっても過言ではありません．

今回の記事ではアンサンブル学習の概要を，次回以降の記事では詳細と具体的なコード例を紹介していきます！

アンサンブル学習とは？

アンサンブル(ensemble)というのは，音楽の用語で二人以上が同時に演奏することです．機械学習では，複数のモデルを学習させて多数決(や平均)で予測値を出すことを指します．

例えばランダムに60%の正解率である分類ができるモデルが3つあるとします．（ランダムなので，データによらず60%の確率で正解します）

このようなモデルを3つ使って多数決で予測すれば，正解率は65%弱に上がります．まさに三人寄れば文殊の知恵といったところでしょうか？

補足
これがイメージし難い人は，100個のモデルを使うと考えてください．それぞれのモデルはランダムで60%の確率で正解するので，もし多数決を取れば，ほとんどのデータで正解ラベルを予測できることがイメージできると思います．

じゃぁ，とにかく沢山モデルを構築してそれらを組み合わせればいいじゃん！！

そう思うかもしれませんが，実はそういうわけではないんです．

アンサンブル学習に使うモデルは「弱学習器(weak learner)」である必要があります．

弱学習器というのはその名の通り，単独で使うと精度が低い学習器のことであり，「ランダムよりも多少はいい」くらいのイメージです．bias-varianceトレードオフでいうとhigh baiasでlow varianceであることが多いです．過学習していない単純なモデルといったところですね！

また，アンサンブルを行う場合はそれぞれのモデルの相関が少ない方がいいです．例えば完全に相関関係にあるモデル(=つまり同じモデル)を複数使っても意味がないですからね．

例えば先ほどの「ランダムに60%の正解率を持つモデル」はそれぞれのモデル同士に相関はありません，このようなケースではアンサンブル学習で大きな精度向上を期待できるわけです．まぁ実際にはここまでお互いに相関がないモデルを作り出すことは難しいんですが．．．(学習データセットは一つしかないですからね．同じデータセットでモデルを作ると相関が強くなるのは仕方ありません)

アンサンブルにはいくつか種類があります．今回の記事では有名なバギング・ブースティング・スタッキングという３つのやり方を簡単に紹介していきます．

また，次回以降の記事でそれぞれの手法を使った具体的なアルゴリズムを紹介します．

バギング

バギング(bagging)はbootstrap aggregatingの略です．

ブートストラップ(bootstrap)というのは，母集団からのサンプリング(標本抽出)手法の一種で，重複を許してランダムにデータを取ってきて標本にするやり方です．

例えば\(x_1, x_2, x_3, x_4, x_5\)という5つのデータから３つの標本を複数回ブートストラップ法でサンプリングする場合，以下のようなサンプル群が出来上がります

サンプル群1: \(x_1, x_2, x_2\)
サンプル群2: \(x_4, x_3, x_3\)
サンプル群3: \(x_2, x_5, x_1\)
サンプル群4: \(x_1, x_4, x_1\)

それぞれのサンプル群でデータが重複しているし，同一サンプル群の中でもデータが重複していることがわかります．

この手法によって全ての学習データから新たに学習データ群を複数作ってそれぞれの学習データ群でモデルを学習させるのがバギングです．(以下はバギングのイメージです)

最終的な出力結果は，回帰なら平均値，分類なら多数決をとるのが一般的です．

バギングの特徴

バギングは，bias-varianceトレードオフでいうvarianceを下げる効果があり，過学習を抑えることができます．

なぜバギングはvarianceを下げるの？

これは，統計学講座第7回などで登場でした，標本分布の分散は，母集団の分散\(\sigma^2\)の\(\frac{1}{n}\)であることからもわかると思います．(下の図は標準偏差\(\sigma\)で表していることに注意)

それぞれのモデルが，母集団から抽出された一つのデータだと考えてください．これらの各モデルの分散を\(\sigma^2\)とすると，平均をとることで最終的なモデルの分散は\(\sigma^2\)よりも下がるわけです．

バギングはvarianceを下げる効果があるため，varianceが高い弱学習器である決定木によく使われます．

前々回の記事で決定木は，データの分割が違ったり，少し学習データに違いがあると結果が変わってしまう高varianceなモデルのアルゴリズムであることを述べました．

ブートストラップ法で決定木を複数学習させ，その複数のモデルの予測結果の平均(や多数決)を最終的な予測とします．

(これを応用したのが，次回の記事で解説するランダムフォレストという超有名な決定木の応用アルゴリズムです)

ブースティング

ブースティング(boosting)は，バギングのように並列に複数のモデルを学習するのではなく，直列にモデルを学習していきます．

直列にモデルを学習・・・？

どういうことかというと，学習したモデルがうまく予測できなかった学習データに重みをつけてさらにモデルを学習するというのを繰り返していきます(下図はイメージです)

そうしてできた複数のモデルを組み合わせて最終的な予測をします(この際，単純に予測値を足すのではなく，０〜１の係数をかけて足し合わせるのが一般的です)．まさにモデルを”ブースト”していくイメージですね！

バギングと違って，それぞれの学習時にブートストラップはせず，基本的には全ての学習データを使います．が，重みが付いているので，学習データをそのまま使うわけではありません．

ブースティングにも色々アルゴリズムがあり，どのように重みを変更していくのか，どのようにエラーを定義するのかは，アルゴリズムによって変わります．この辺りは今後の記事で詳しく解説していきます．

ブースティングの特徴

ブースティングは直列にモデルを処理していくので，学習時間が長くなることがあるので注意しましょう．ただ，ブースティングは一般的にvarianceとbiasの両方を下げることができるので，その分バギングよりも精度が高くなる傾向にあります．(必ずしもvarianceとbiasの両方が下がるとは限りませんが)

ブースティングは，データサイエンスのコンペ上位によく登場するモデルに使われているほど高精度であることが知られています．詳細なアルゴリズムや実装についてはまた今後の記事で紹介できたらと思います．