(追記)動画版も公開しました!全38時間の3部作という超大作です
いやーついに長かったデータサイエンス入門機械学習編35回分の記事を書き終えました!!
本記事はそのまとめです.目次として使ってください.
目次
目次
線形回帰
第1回: 機械学習とは?なにをしているのか?
第2回: 線形回帰の損失関数をわかりやすく解説
第3回: 最急降下法を図と数式で理解する(超重要)
第4回: 正規方程式を完全解説(導出あり)
第5回: scikit-learnを使って線形回帰モデルを構築する
第6回: 線形回帰の係数の解釈の仕方(p値)
評価
第7回: (超重要)過学習と汎化性能を理解する(hold-out法を解説)
第8回: LOOCVについて解説&Pythonで実装する
第9回: k-Fold Cross Validation(交差検証)を解説する
第10回: 回帰モデルの評価指標を一挙に解説(MSE, RMSE, MAE, R-Squared等)
非線形
第11回: 多項式特徴量で線形を超える!
第12回: 超重要!Bias-Variance Tradeoffを完全に理解する
ダミー変数
第13回: 質的変数を説明変数として使う方法を解説(one-hot エンコーディングとダミー変数トラップ)
その他の回帰
第14回: 正則化項を用いて特徴量選択をする(Lasso)
第15回: kNN回帰(k最近傍法: k Nearest Neighbor)アルゴリズムをわかりやすく解説
分類器
第16回: 分類タスクとロジスティック回帰をわかりやすく解説
第17回: ロジスティック回帰を多クラス分類に応用する
第18回: Pythonでロジスティック回帰をする
分類器の評価
第19回: 分類器の評価指標~TP, TN, FP, FNと混同行列を理解する~
第20回: 分類器の評価指標~Accuracy, Precision, Recall, Specificity~
第21回: F値とPrecisionとRecallのトレードオフを理解する(超重要!!)
第22回: ROCとAUCを超わかりやすく解説(超重要!!)
第23回: 多クラス分類におけるROCとAUC
次元削減
第24回: 次元削減とは?PCA(主成分分析)を理解する
第25回: PCA(主成分分析)を使ってモデル構築する(MNISTを分類)
クラスタリング
第26回: 教師なし学習(クラスタリング)のk-meansをわかりやすく説明
第27回: 階層クラスタリング(Hierarchical Clustering)をわかりやすく解説
決定木
第28回: 回帰の決定木アルゴリズムを完全図解する
第29回:【決定木】ジニ不純度と木の剪定(cost complexity pruning)を解説
第30回: アンサンブル学習を超わかりやすく解説
第31回: ランダムフォレストをわかりやすく解説
第32回: XGBoostの概要とPython実装をわかりやすく解説
第33回: LightGBMを超わかりやすく解説(理論+実装)
SVM
第34回: サポートベクターマシンを図でやさしく理解する(理論+実装)
チューニング
第35回: 最適な機械学習モデルを探索する(Pipeline+Grid Search)
こうやって一覧にすると,かなりの量だなと実感しますね.
一つ一つの記事も結構な量(6000字~1万字とか)なので,本連載だけでかなりの基礎力がつくと思います.
講座を書いてて思ったんですが,まだまだ解説したいことはたくさんあるし,正直解説し切れていないところや書き切れていないところが多いです.それでもこの量なので,機械学習という分野がどれほど大きいものかがわかりますね!
なので本連載は,本当に必要な内容に絞って厳選して書いたって感じです.なのでこれらの内容は最低限必要な内容だと思ってください.
これがミニマムです.そのなかでもタイトルに「重要」が付いているものは,完全に理解して習得する必要がある内容と言えます
前提知識
必要な前提知識としては,Pythonの基礎と,データサイエンスをするのに必要なライブラリの基本的な使い方および統計学の知識が必要です.
機械学習というのは,統計学の上に立っているような理論であり,統計学なしで理解するのは難しいと思うので,統計学を一通りやってから学習することを強くお勧めします.
また,言葉で理解したり,数式を見て理解するのも大事なんですが,コードを書いて実際のデータに対してモデルを構築してあれやこれやといじって学習するのが一番習得しやすいと思います.そのためにもPython関連の知識はつけておきましょう!
是非事前に以下の動画講座を受講ください. どれも☆4.8という驚異的な超高評価をいただいている日本一の講座です.全部僕が作っているので,全て体系だって学習することができます.(それぞれの記事にクーポンを配っているので是非チェックしてください)
・Python入門講座
・データサイエンスのためのPython講座
・統計学講座
また,一部数学の知識が必要だったりします.難しい数式は使ってませんが,余裕があればこの辺りの本で事前に勉強して慣れておくのも◎ですが,必須ではないです.
講座のレベル
入門レベルです.機械学習のことは「全くわからない!!」レベルでOKです.本当にゼロから解説します.
一部数学の知識が必要になってきますが,まぁそんなに難しいことはしていないですし,講座のなかで必要に応じて解説してるので読み進めることはできると思います.
本当に必要な内容に厳選して記事にしているので,基礎を学ぶ講座だと思ってください.
Pythonのコードもそこまで難しい処理は書いてません.scikit-learnなどの機械学習ライブラリの基本的な使い方を紹介しているだけです.オブジェクト指向がわかってなくてもある程度は理解できると思います.
とはいったものの,理論+実装を学習できるので,すぐに現場で使える実践的な内容です.
実際に現場で働くデータサイエンティストの目線で作られた実践的な講座で,ここまで網羅していて体系的に学習できる無料コンテンツは他にないと思います.
講座が役に立ったら是非友人等にお勧めしてくださいね:)
それでは,Happy Machine Learning!!
[…] データサイエンス入門:機械学習編全35回まとめと目次かめ@米国データサイエンティストさんによる機械学習超入門講座 […]