統計学って？記述統計と推測統計【統計学入門①】

こんにちは，米国データサイエンティストのかめ(@usdatascientist)です．

今日から久々にブログ連載を再開したいと思います！題して「Pythonで学ぶデータサイエンス:統計編」です！！

Pythonを使って，統計学の基礎を学習していきたいと思います．本講座ではPythonを使うので，「Pythonでちゃんと学びたい！！」という人は，こちらのブログ講座でPythonの基本とデータサイエンスに必要なPythonを学習してください．

もっと効率よく学習したい人は動画講座で学習することをお勧めします．全23時間超えの大ボリュームです．非常に高い評価をいただいているので，自信をもってお勧めできます．

【公開初日で受講生1000人超え！】データサイエンスのためのPython動画講座を公開しました【全23時間…!!】

また，コミュニティ“DataScienceHub”では，Coding Challengeという毎週プログラミングの課題を出しています．Pythonについてはコードレビューもしてますし，他の人のコードをみれたりするので，「もっとPythonを勉強したい」という人は是非参加してみてください．

DataScienceHubコンテンツ第一弾！Coding Challenge始めます(コードレビューもします！)

（追記）

全16時間を超える統計学動画講座を公開しました！あらゆるUdemyにある統計学講座の中でもトップ評価(☆4.8)をいただいています．是非こちらで受講ください！

【初日で1200人が受講】ゼロから学べる統計学超入門動画講座を公開しました!!

講座の範囲とレベル

本講座は統計学の基本的な内容を勉強していきます．もう本当に基本中の基本．統計学を勉強したことない！！っていう人でも進められるようにしているので，小難しい本を読む前に是非本講座に取り組んで欲しいです．

講座の範囲は，統計的記述から始まり，推定と検定を軽く扱います．その後機械学習講座に繋げていければいいかなと．

なので，マニアックな検定には触れません．あくまでも「最初の一歩」を踏み出すための講座だと思ってください．

ただ，統計学の土台にある考え方はしっかりと学べるようにするので，本講座を一通り学習すれば他の統計本を読み進められるようになると思います．機械学習を勉強するのにも必要な知識になってくるので，是非今回の講座で基礎を固めておきましょう！

なお，ベイズ統計はまた別の講座作ります．

本講座ではPythonを使っていきます

本講座ではPythonを使って学習していきますが，Pythonが分からなくてもある程度進められるように設計するので，Pythonがわからない！って人はPythonのコードの部分は飛ばして進めてください．

ただ，今後データサイエンティストを目指すのであれば絶対にPythonはできたほうがいいと思うので．是非本記事の前半に書いた講座を受けてPythonを習得しましょう！

(追記)Python自体触ったことがない！という人や，Pythonの勉強をしたいという人は，是非僕のUdemy講座を受講ください！こちらも☆4.8という超高評価(Udemyでダントツトップです)でベストセラーになっています．(↓の記事にクーポンを載せているので使ってくださいね！)

【決定版】Python入門動画講座を公開しました【超高評価でベストセラー】

本講座で扱うPythonのライブラリは，本ブログの「データサイエンスのためのPython講座」で扱ったライブラリ(主にはNumPy, Pandas, matplotlib, seaborn)に加え，新しくSciPyのstatsとscikit-learnというライブラリを扱います．

SciPyはScientificな（科学的な）Pythonのオープソース・ライブラリです．’サイパイ’と呼びます．

NumPyを基盤にして作られていて，統計や最適化問題，積分や線形代数など，科学や工学で使用する際に非常に役立つモジュールを揃えています．

本講座では，特に統計に特化したstatsモジュールを使っていきます．（統計学入門ですからね！）

scikit-learn(サイキットラーン)は，Pythonの機械学習用のオープンソース・ライブラリです．主要な機械学習のアルゴリズムはだいたい網羅してます．略してsklearn(エスケイラーン)と言ったりもします．scikitは，SciPy Toolkitから来てる通り，SciPyの拡張的なライブラリですが，ユーザ目線ではSciPyとは独立した別のライブラリと思っておいていいと思います．

scikit-learnは機械学習用のライブラリですが，統計講座でも少し使います．

SciPyもscikit-learnも，Anacondaに入っています．今回もJupyterLabを使ってハンズオン的に進めたい方はこちらの記事や，こちらの動画講座で環境構築をしてください．

なお，本講座では実際にコードを書いていきますが，本講座のコードは必ずしも”最適な”コーディングをしていないことに留意してください．(“Python”講座ではないので)

場合によっては，アルゴリズムを理解するため，ライブラリの関数を使わずにあえてスクラッチからコードを実装しています．また，PandasやNumpy，SciPyを使って同じことができたりもしますが，全てを紹介するのは無理なのでご了承ください．