こんにちは,米国データサイエンティストのかめ(@usdatascientist)です.
今回は前回の記事に引き続き,おすすめの統計学の本を紹介したいと思います.
前回の記事でも言っていますが,統計学や機械学習などのデータサイエンス分野は本での学習が不可欠です.
結構アカデミックな分野ですからね,なんとなーくコードを書いたら結果がでるのとはわけが違うんです.本気で学ぶなら体系立って学びましょう.
今回は統計学の基礎が学べる本を紹介していきます.おそらくここで紹介する本が今後も学習するうえで/業務で長く付き合っていく本になると思います.
前回の記事で紹介したのは超入門ですからね,2回くらい読めば本記事で紹介するレベルの本に進んでいいと思います.
ちなみに本ブログで紹介する本は全て実際に私が読んで良かったものに厳選しています.物によってはKindle版,日本語版,英語版をそれぞれ読んでいるのもあります.それくらい私は本で勉強しました.基本的な内容は全部本から知識を得て,最先端の深層学習のアルゴリズムの知識は論文を読んで学んでいる感じです.
おそらく本ブログの読者のほとんどの方は統計や機械学習の基本的な知識を得たい方々だと思います.もし,本ブログで紹介している本を全部読んで一通り理解したら,おそらくアメリカで働いている多くの”データサイエンティスト”より統計・機械学習の知識があると言っていいと思います.
それでは,紹介していきますね〜!!
目次
本記事で紹介している本のレベルについて
対象は前回の記事で紹介した本の内容を理解している人です.
レベルは,大学などで扱う統計学の教科書レベルです.いわゆる入門書と呼ばれるレベルだと思います.
ただ,おそらく前回の記事で紹介した本をまだ読んでない方の9割は本記事で紹介する本を読めるレベルでないと思います.
なぜそんなことをいうかというと,私は実はあとに紹介する「心理統計学の基礎」という本を最初に読み挫折しました.
当時の私は東京大学大学院で情報系の専攻で画像処理関連の研究をしていました.
東大院で,情報系で,画像処理の研究していても,「心理統計学の基礎」を読んで理解するのはハードルが高かったんです.
ちなみに当時の自分のスペックは,統計検定の結果をSPSSで出して国際論文で使っていました.
東大院試の数学は満点(「確率論」は範囲外)だったので,数学の基礎もありました.
それでも,「心理統計学の基礎」は難しく感じた.そもそも文面が難しい感じなんですよ.完全右脳派の私からするともう何言ってるのか分からなく無って挫折しました.
それからしばらく「統計=苦手」意識がつき,統計から遠ざけていた時期がありました.そしてある日,もう一度本格的に勉強しようと思い,前回の記事で紹介したいわゆる「超入門」の本を読んだわけです.
そしたら結構わかるし面白い.そうして再度「心理統計学の基礎」に戻り勉強を再開したのでした.
もちろん,自分が劣等生だったのかもしれません.とりわけ統計は苦手でした.院試でも確率論だけは全く理解できませんでした.(てかぶっちゃけ多くの理系院生が統計ちゃんと理解せずSPSSで結果だけ使ってる気がするんですが,そんなことないかなw)
でもそれは私だけではないと思います.おそらくほとんどの人が最初から「心理統計学の基礎」を読んだら挫折すると思います.
でも,一応AIで有名な米国企業でデータサイエンティストとして働くレベルになってわかりましたが,「心理統計学の基礎」は入門書だし,「心理統計学の基礎」の内容は本当に全て重要かつ基本的なことしか書いていません.なので世間では「入門書」として扱われ「入門書」だと思ってこの本を手にした初学者の方々が「統計は難しい,無理!」となっていっている気がします.
長くなりましたが以上を踏まえての「基礎」を学べる超おすすめ統計学入門書を以下に紹介していきます.
Rによるやさしい統計学
超有名な「Rで統計学を学べる本」です.この本は本記事で紹介する本のなかで一番易しいと思います.前回の記事の超入門の本と後述する本の架け橋的な存在になるとおもいます.私は俄然RよりPython派ですが,(理由はこちらの記事を参照)Rに興味がない人でも,この本の内容くらいはRでできるようにしておくと「RよりPythonの方がいいよ」とドヤ顔で言えると思います.
もちろん,RではなくPythonでやってみるのもいいと思います.本書は本当に易しく書かれていて,超入門で紹介した本にプラスアルファの知識がついている感じです.私は今でも時々読み返します.
私は職場でいつでもひけるように,Kindle版を愛用してます.
心理統計学の基礎―統合的理解のために (有斐閣アルマ)
こちらが先述した「心理統計学の基礎」です.私の統計のバイブル的存在です.「なにを買ったらいいかわからない」という人はまずこちらの購入をおすすめします.
「Rによるやさしい統計学」に比べると結構難しいです.この本からがっつり数式もでてきます.ですが,1周目は全然理解できなくても3周くらいすればかなりわかってきます.そういうものだと思って読みましょう.全部で300p以上あるのでかなり時間がかかるかと思いますが,できれば飛ばさず,じっくり理解しながら読んでいけたらいいと思います.特に最後の方にある因子分析や共分散構造分析あたりの説明は,わかってくるといろんなものが繋がってきて,統計学の面白さがわかってくると思います.
また,本書で取り上げている内容は本当に基礎の部分で,どれも超重要事項です.ただ,それでも最初は読み進めるのが難しいと思います.私は最初全然理解できなくて,次に紹介する「基本統計学」と並行して学習しました.
同じ単元に違う本で出会うと,その単元の重要性に気づいてより重きをおくようになるし,違った角度で説明してくれるので理解が深まります.
これは英語学習でいう「英単語に何回も出会ってようやく英単語を記憶する」のに似ています.私はそれと同じ要領で,大量の本を読んで統計学と機械学習を学びました.
プログラミングだったら普通にコードをたくさん書くことで何度も出会って自然に覚えますが,統計学や機械学習は実際に使う場面がコーディングほどは多くないので,このように複数の本を何度も読んで出会うのが基礎力をつけるには一番だと思います.
続編もあるのですが,こちらも同じぐらい重要です.合わせて読みましょう.ベイズについても最後に少し触れています.また,効果量についてこれほど詳しく書いている本はないと思います.↓
また,「心理統計学って私がやりたいことじゃない」「私のデータは心理関係ない」って思った人,それは違います.
私も最初「自分は工学系なのになんで心理?」って思ってました.たしかにこの本は「心理学を行う上で必要となる統計学」にフォーカスをしており,心理学研究が題材になっています.
心理学研究の題材というのは,私の超簡略理解でいうと(間違ってたらすみません),例えばアンケートとかとってその統計結果をみるみたいな感じなんです.めちゃくちゃ身近でしょ? 多分統計の基本的な題材が心理学研究にあるのかなと思います.(間違ってたらすみません.)なので,心理学への興味・関与は全く関係なく本書の内容は統計学全般に必要な内容になってます.
基本統計学 第4版
多くの大学で教科書として使われている本書は,おそらく統計学入門の鉄板中の鉄板と言われるものだと思います.
東大出版の「統計学入門」(後述)とツートップの定番入門書です.私は東大出版よりこちらの「基本統計学」をおすすめします.
理由は,文面がわかりやすく,易しいと感じたのと,東大出版の「統計学入門」はずっと改定されてなくてなんか古い感じだからです.先述の「心理統計学の基礎」よりも易しいと思います.(特に確率分布の説明が本当にわかりやすかった…) ただ,説明が少し足りないなと感じるところもあるので「心理統計学の基礎」と合わせて読むといいと思います.
「統計学入門」(通称赤本)もド定番なのでリンク貼っておきます.「統計学入門」の方がちょっと文面が硬くて小難しい印象ですが,こちらも名著なので読んでおくといいかもしれません.私の周りではダントツでこの本持ってる人が多いです.
Think Stats
日本語版↓
英語版↓
海外のザ・定番統計本です.私は英語版で学習しました.英語で統計学を学習したい人は絶対にやるべき本だと思います.
Pythonで統計学を学ぶ内容になっており,Pandasなどのライブラリを使って実データを実際にいじりながら統計学の基礎を学べます.(PythonやPandasの事前知識が必要です.私のブログに講座があるのでこちらと並行して学習することをおすすめします.)
実際にPythonで手を動かしながら勉強したい人にはおすすめです.が,コードやその実行結果の表がたくさんあるので,本の厚みのわりに内容が少し薄く,数式もほとんど出てきません.実務で本当に必要なものに絞っている印象で,理論の説明よりかは実践向けの本です.
Python使いのデータサイエンティストを目指すなら持っておきたい一冊です.
Think Bayes
日本語版↓
英語版↓
Think Statsのベイズ版です.私はこちらも英語版を持ってます.ベイズ統計はデータサイエンス必須事項なのでこちらの本から入門するのがいいと思います.ベイズの知識は今後紹介する機械学習の本で有名な本「パターン認識と機械学習」という通称PRMLやビショップ本と呼ばれる超重要本を読むのに必要になってきます.
私も実際に仕事で使う統計の多くがベイズ統計です.特にコンピュータ・ビジョン関連の理論はベイズを元に構築されたものが多く,本書は今でも時々見直すくらいわかりやすく解説されています.ただ,Think Stats同様Pythonでハンズオンで進める内容になっているので,PythonやPandasなどの事前知識は必要です.
また,統計学の基本知識やベイズの事前知識も必要なので,前回の記事で紹介した「図解・ベイズ統計「超」入門 あいまいなデータから未来を予測する技術」程度の知識は入れておきましょう.
現場ですぐ使える時系列データ分析
時系列データに特化した本です.時系列データというのは時間で変化するようなデータです.例えば毎日の東京の気温とか,株価とかです.実際にデータサイエンティストとして働くと,扱うデータの多くが時系列データです.時系列データを扱うときは上述した本ではちょっと不十分で,時系列用の統計学をかじっておく必要があります.
とりあえずこの本を一冊やっておけばだいたい必要な知識やワードは入ってきます.説明もだいぶ易しく書かれているので比較的楽に読み進められるのではないかと思います.統計の知識というよりは時系列に特化したテクニック的な部分の説明になるので,本書を何度か読んであとは実際の業務やコンペで時系列データを扱う際に本書に戻って復習するスタンスでいいと思います.
ぜひ一度は目を通して,手元に置いておきたい本です.
多変量解析法入門
多変量解析についての理解を深めるための本です.多変量というのは,変数(変量)が複数あるケースの解析です.ちなみに実際に業務で扱うデータはほとんどが多変数です. なので,多変量解析の理解は必須なんです・・・.
ただ,この本は結構難しいです.多変量はどうしても数学の前提知識(特に線形台数)が必須です.あと,この辺になってくるとだいぶ機械学習と内容が被ってくるので,機械学習編で紹介しようか悩みましたが,予測モデルよりも分析メインで書かれているので本記事で紹介することにしました.
もし本書が難しいと感じたら,一度読むのをストップして(せめて3章までは読んでほしいが),今後紹介する機械学習の入門書と本書を合わせて読み進めると理解しやすいと思います.(機械学習のおすすめ本は今後書いていきます.)
しかし,データサイエンティストとして働くのであればこのレベルは必須ですし,重回帰も主成分分析もクラスター分析も超頻出なのでいずれもマスターする必要があると思います.
まとめ
かなり長くなってしまいましたが,まとめると,
まずは前回の記事で紹介した超入門の本をきちんと読みましょう.いきなり本記事の本を読むと挫折して「もう統計やだ」となりかねません.
「Rによるやさしい統計学」は脱超入門書.
「心理統計学の基礎」は私の統計学のバイブル的存在であり,「基本統計学」と合わせて読み進めると理解が深まっていいと思います.とりわけ統計学の理論はこのシリーズでOKです.
実際の業務ではPythonで統計を扱うことになるのでそのために「Think Stats」と「Think Bayes」をやるといいです.コード自体はめちゃくちゃ簡単なのでサクッと本ブログの「データサイエンスのためのPython入門」で知識をつけてから読みましょう.
時系列データを扱う予定がある人(ほとんどだと思いますが,,)は「時系列データ分析」を読みましょう.
「多変量解析法入門」は少し難易度高めですが,機械学習の入り口にもなるので機械学習を勉強予定の人は読んでほしいです.
ここで紹介した内容はデータサイエンティストから見たら入門書であり,基礎です.どの内容も絶対に必要だし,仕事では当たり前のように出てきます.
しかし,入門書だと思ってこのレベルの本から勉強を始めると挫折しかねません.おそらく9割以上の人にとってこの記事の本はレベルが高いと思うので,きちんと超入門から始めて体系立てて学びましょう.
それでは!
追記)統計学の勉強が終わったら数学→機械学習の本と学習を進めていきましょう
数学の本はこちらから↓
機械学習の本はこちらから↓
[…] 米国データサイエンティストのブログ […]
[…] 【基礎編】超おすすめの統計学の本 […]