こんにちは,米国データサイエンティストのかめ(@usdatascientist)です.
今日は統計解析ソフトのRをインストールして軽く触ってみようと思います.
なお,こちらの記事にある通り本ブログではデータ解析にはpythonを推奨しております.が,Rも触った上で「え,まだR使ってるの?」と言えるようにしましょう.
目次
Rってなに??
Rって何でしょう?Rは,統計解析のために作られたフリーソフトウェアです.Pythonもそうですが,基本的に自由に利用,改変,再配布が可能です.
線形モデル,非線形モデルや一般的な検定(tやカイなど),クラスタリングや識別器のモデリングをとても簡単に実行・実装ができ,Windows,Linux, Mac,Unixと多くのOSで動くオープンソースです. 特徴としては以下のような感じですね
- 統計解析のためのソフトウェア(SPSSやSASとかに近いかも)
- 他のソフトウェアと比べGUIが弱い分プログラミングの要素が強い
- 独自文法が多い
- 比較的簡単に使えるので研究者や統計屋向け.
- アカデミック色が強い
まぁ,よくわからないと思うのでまずはインストールして使ってみましょう!
Rをインストール
本ブログではMacでのインストールの仕方を紹介します.(本ブログではMacを推奨しています.理由はこちら)
CRANからダウンロードすることもできますが,結構問題もあるようなので今回はHomebrew経由でインストールする方法を紹介します.(CRANからダウンロードする場合はMediumの記事がわかりやすいです.)
インストールの仕方はめちゃくちゃ簡単.Terminalを開いて(ちなみに本ブログではTerminalの代わりにiTerm2をお勧めしてます.まだTerminal使ってる人,ぜひこちらを一読して戻ってきてください!) Terminalを開くにはcmd+スペースで’Terminal’と検索しましょう.
1.XCode CLTをインストール
すでに入ってるかもしれませんが.以下のコマンドでインストールしましょう.Rをインストールするのに必要なものです.少し時間かかるかも
1 |
$ xcode-select --install |
2.Homebrewをインストール
こちらの記事でも紹介したHomebrew.Macユーザでコーディングするなら必須ツールです.入れましょう.2020年1月現在では以下のコマンドでインストールできます.
最新のインストールの仕方はこちらのページに従ってください.
1 |
$ /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" |
Homebrewというのは,いろんなパッケージを管理しているいわば「パッケージ管理ツール」です.Homebrew経由で様々なツールをインストールできます.Rもそのうちの一つ.
3. RをHomebrew経由でインストール
1 |
% brew install r |
4. Open BLASをインストール
同じ要領でOpen BLASをインストールします.
1 2 |
$ brew install openblas $ brew install r --with-openblas |
Open BLAS (Basic Linear Algebra Subprograms )というのは, 行列計算やベクトル計算などの線形代数の演算をしてくれるオープンソースです.
5. RStudioをインストール
同じくRStudioをインストールします.
1 |
$ brew cask install rstudio |
RStudioというのはRをヴィジュアル的に使いやすくするためのツールで,IDEという位置付けになります.Rのためのエディタだと思っていただければOKです.
インストールができたらLaunchpadにRstudioのアイコンがあるはず!
Rをいじってみる
それでは早速Rstudioを開いて触ってみます.LaunchpadにあるRstudioのアイコンをダブルクリックしてみましょう!
すると↑のような画面がでるので,プロンプト( > が表示されているところ)にコマンドを入力してみましょう!試しに 1+1 とか 10-3 とか.
実行(エンターキーを押す)すると,結果が出力されると思います.
それでは,ちょっと統計っぽいことをします.プロンプトに以下のコマンドを入力して実行しましょう.(長いのでコピペしてください)
1 |
> summary(c(57,73,67,59,60,70,70,74,74,71,72,72,72,60,61,60,61,64,63,65,68,54,54,67,71,68,69,69,64,65,68,63,66,58,59,72,55,58,70,58,59,61,62,62,59,61,63,52,71,68,62,63,54,58,60)) |
すると以下のような結果が出ると思います.
Min:最小値,
1st Qu:第一四分位点(first quantile)
Median:中央値
Mean : 平均,
3rd Qu: 第三四分位点
Max : 最大値
を表しています.実はこの数値,戦後の幣原総理から今の安倍総理までの内閣総理大臣就任時の年齢の統計値です.(複数回内閣持ってる人はその分カウントしてます.)
こんな感じで,統計値を簡単に出すことができます.(もちろんpythonでもできます)
値が長いので,変数に代入してみましょう. 変数名 <- データ で変数に代入できます.変な文法ですねw
さらにRを使って勉強したい方
Rを使って統計学を勉強したい方は,↓リンクに紹介している「Rによるやさしい統計学」がわかりやすくて親切です.
また,Rを使って機械学習を勉強したい方は,私の機械学習のバイブル本ISLでの学習をお勧めします.↓のリンクで紹介してます.
まとめ
今回は「とりあえず使ってみる」というところにフォーカスしてみました.
今後本ブログでRを使うことはないと思いますが,一応データサイエンティストとしてRの経験もあるといいです.だれかに「まだR使ってるの?Pythonのほうがよっぽどいいよ」と言う時に使ったことないとは言えないのでw(冗談ですが)
こちらの記事にある通り,本ブログではPythonを使ってデータサイエンスを学べるようにしていく予定ですので,よろしくお願いします!
それでは!