こんにちは,米国データサイエンティストのかめ(@usdatascientist)です.
最近よく「オススメの本はなんですか」という質問をいただきます.
そこで先日以下のようなツイートをしました.
自分がデータサイエンスを勉強し始めたころ,とにかく本をたくさん読みました.
以下の順で読めば最短で最低限の知識が入るのでは
統計学の基礎
Rによるやさしい統計学
心理統計学の基礎
ISL(https://t.co/yXleK6wmTV)
言語処理のための機械学習
はじパタ
PRML+自分のブログ実装力をつける
— かめ@米国データサイエンティスト/ブロガー (@usdatascientist) January 25, 2020
そしたら何名かの方から「本買いました!」とのツイートをいただきました.
でも,「おすすめの本」と一言にいっても,人によって違うし目指すところ,職種や必要なスキル/レベルによって変わってくるなぁと思い,これは一度ちゃんとまとめるべきだなと思いました.
私のブログのデータサイエンス講座も統計ちっくな内容が増えてきたので一度「私がおすすめする統計/機械学習の本」を紹介しておきたいと思います.
今回は超入門編とし,今後中級者向けや上級者向け,深層学習や画像認識に特化したページを作っていこうと思います.
(超入門の前に読める,データサイエンス読み物系の本はこちらから,またデータサイエンス関係なく,エンジニアオススメの本はこちら)
目次
統計や機械学習などのデータサイエンスは本での学習が不可欠
これはものすごく重要な事ですが,統計や機械学習はかなりアカデミックな分野です.そのため,Qiitaなどのブログで学ぶだけでは不十分です.いわゆる「専門書」を買い,何度も読んで必要な時にサッとひけるようにする必要があります.
逆にプログラミングの学習は,本はそんなに必要ないと思います.動画やProgateやCodacademyなどのネット教材で学んだ方が効率的だと思います.ブログもコードをコピペできるので,プログラミングの学習には最適な教材の一つだと思ってます.
でも
データサイエンスは違います!!
これは断言しますが,本なしで統計や機械学習は絶対に習得できません.理由は以下のとおりです.
- 体系的な学問であり,順序立てて学ばないと理解ができない
- かなりアカデミックとのつながりが強いので,専門家が書いた本以外はあまり信頼性がないし間違いが多い.
- 数学の理論の上に成り立っており,完全に理解するには数式を追う必要がある.数式の導出をちゃんと書いているのは本
私も統計学や機械学習の勉強はほとんど本でしました.
私のデータサイエンスの知識はほとんど本から来ています.逆に言うとみなさんも本を買って自分で勉強すれば(少なくとも)私の知識レベルには追いつけると思います.
本ブログで紹介している本は全て私が実際に購入して,何度も読み倒した本です.また,私が購入した本のなかで特に良質かつ私が勉強する上で重宝した本に厳選しています.
本気でデータサイエンティストを目指すなら,私が紹介する本はどれも必要不可欠だと思います.
今後ブログで統計学講座・機械学習講座をやっていく予定ですが,今後紹介していく本がベースになると思います.
ぜひそれらの本を手元に置いて私のブログで勉強していただければと思います.
また,「そもそも統計とは」「人工知能とは」などを学べる読み物系の本は↓にまとめました
統計学超入門書
対象:統計学の「と」の字も知らない人向け.本当にいままで統計学に携わったことがない人向け
私もここで紹介している本から勉強をスタートしました.本当におすすめの本ばかりなのでぜひ読んでみてください.
全く統計学に触れたことがない人でもすごくわかりやすくて親しみがもてる本です.
なお,データサイエンティストを目指している人でなくても,日頃データを扱っている人や普通のビジネスマンにも読んでほしい本です.
統計学がわかる (ファーストブック)
一番のおすすめはこれです.統計学を全く触れたことがない人向けにストーリー仕立てに書かれています.
そもそも統計がビジネスにどう活かされるのかがわかり,入門書といえどきちんと分散分析やt検定などについても触れているので,これを一冊読めば「統計学」がなんなのかがわかると思います.これを読むとニュースで扱われているデータの統計や,普段の仕事で使うグラフなどの見方が一気に変わると思います.
もし,これが読みやすくていいなと思ったらぜひこちら↓も読んでみてください
統計学がわかる 【回帰分析・因子分析編】 (ファーストブック)
こちらはシリーズ第二弾です.一冊目はt検定や2要因の分散分析で話が終わっていますが,実世界ではもっと状況が複雑だったりして,一冊目の内容だけでは不十分です.こちらは一冊目同様ストーリー仕立てで同じくらい優しく書かれているので,ぜひ一冊目に続けて読んでほしいです.
回帰分析や因子分析など,より実世界で扱う内容に近くなっています.
図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術
こちらも超おすすめのベイズ入門書です.統計学というのは実は二つの流派的なのがあり,いわゆる普通の統計と,ベイズ統計です.
先程おすすめした「統計学がわかる」シリーズは普通の統計学超入門の一番のおすすめの本です.
そして,この「図解・ベイズ統計「超」入門 」がベイズ統計超入門の一番のおすすめの本です.
ベイズ統計はデータサイエンスを学ぶ上では欠かせませんし,私も実際で業務で使う統計はベイズ統計の分野であることが多いです.
本書もストーリー仕立てになっており,ベイズ統計がなんなのか,どういったところで役に立つのかなどがわかりやすく記載されています.迷惑メールフィルタなど,今使われているAIアルゴリズムの基礎になっているアルゴリズムについても触れています.数式を一切ださずに説明しているので,初めの一冊には最適です.
マンガでわかる統計学シリーズ
超入門書の定番中の定番です.まんがを読んで一通り統計の基礎を学べます.軽い感じで読みたい人,サクッと楽しく読みたい人には最適な超入門書だと思います.
ただ,難点なのがやはり漫画なので一冊では情報量が足りません.以下のシリーズを読まないと今後紹介する「初級編」レベルの専門書を読むのは難しいと思います.
どの本もかなりわかりやすく記載されているし内容も面白いです.まとめてサーっと読んでしまうことをおすすめします.多分週末二日で無理なく読める量です.
以下の回帰分析と因数分解は必須事項なので本書で学ぶ場合はこちらも読みましょう.
ベイズ統計もあります.もし上記の統計学版が自分に合っていたらこちらも読んでみてください.ベイズは本当にわかりにくく取っつきにくいで,最初の入門書は優しい方がいいです.私が知っている入門書のなかで一番やさしいベイズの本です.かなりおすすめです.
「それ、根拠あるの?」と言わせないデータ・統計分析ができる本
普段仕事でデータを扱っている人や,普通のビジネスマンにはこれを一番おすすめします.
普段のデータ分析に即活かせる内容になっているので親しみももてますし.なにより「いままでこんなことも知らずにデータ扱ってたんだ」ってなります.相関分析や単回帰分析までなのでそこまで内容は広くないですが,一つ一つの内容が過不足なく書かれていて,単回帰分析までに必要な情報は全てこの一冊に収まっている印象です.
ちなみに,Kindleが安いのでKindle本で買うことをおすすめします.本によっては紙媒体のほうがいいですが,この手の入門書はそこまで数式はでてこないですし,どちらかというと読み物なので,Kindleがある場合はKindleでいいと思います.
まとめ
私もこれらの本を読むところからスタートしました.最初本当に色々な本に手を出して読みまくってましたが,結局今振り返ると上に紹介した本達が一番です.
紹介してて気づきましたが,どの本もAmazonレビューすごく高いですね...
やはりいい本はちゃんとレビューに反映されているようです.本当におすすめなのでぜひこれらを読んで,「統計学」の面白さを知って興味を持っていただければと思います.
おすすめ本をどんどん紹介していく予定なのでお楽しみに!!それでは!
追記)超入門の次は統計学基礎編です.こちら↓
[…] 統計学のための数学終了後,統計学に取り掛かる本を探していたときにかめさん(@usdatascientist)のブログを読みました. 統計学の超入門と基礎編の書籍をおすすめされており,超入門の中にこの本が. エクセルで実際に処理をしながら,読んでいくと理解しながら進めていくことができるかと思います. 意外とストーリーが面白くて,そこも面白かったかもしれません, 次に取り組むRによるやさしい統計学を学びながら,適宜戻ろうと思っています. […]