データサイエンスのためのPython入門⑧〜NumPyでよく使う行列生成〜

グローバルでAI開発者・データサイエンティストを目指す人向け
おすすめUdemy講座一覧

TOEIC300→海外就職の英語勉強法まとめ

こんにちは,米国データサイエンティストのかめ(@usdatascientist)です

データサイエンスのためのPython入門第8回です(講座の目次はこちら).今回は,NumPyを使って様々な行列(ndarray)を作ってみたいと思います.

(「データサイエンスのためのPython講座」動画版がでました!詳細はこちら)

そんなに難しい内容ではなく,どれも理解しやすいものだと思います.

また,全ての関数を覚える必要は全くありません.必要な時にググって使えればいいのです.関数名は無理して覚えなくてOK!

なお,前回の記事は重要度が高いです.まだ読んでない方はぜひ一読ください↓

データサイエンスのためのPython入門⑦〜これだけ知っておけばいいNumPyのindexingとslicing〜

様々なndarrayを作る

前回前々回の記事では, np.array() でndarrayを作りました.(ndarrayというのは多次元のarrayです.)

NumPyには様々なndarrayを作る関数が用意されているので紹介します.

  • np.arange([start,] stop[, step])

よく使います.start以上stop未満の値をstepずつ増加させた値のarrayです.ちなみに↑の関数の引数の表記で,[]は省略可能を意味します.つまり,startとstepは省略可能で,それぞれ0と1がデフォルトで入ります.

説明するより使ってみた方が早いです.↓の例をみてください.

np.arange(0, 5, 2)は0~0.49999…の値を2で区切った値のリストが返されています.

np.arange(5)もnp.arange(0, 5)も0~0.49999…の値を1で区切った値のリストが返されています.

np.arange(0, 5, 1)も同じarrayが作れられます.試してみてください.

np.arange(0, 5, 0.1)なども試しに作ってみてください.なんとなくわかるはずです.

これは様々なところで使います.例えばある閾値をたくさん用意してその結果がどう変わるか見る場合に,np.arange()で閾値のリストを作ることができます.

  • np.linspace(start, stop, num=50)

np.arange()がstepだったのに対し,np.linspace()は要素の数(num)を指定します.startからstopまでの値をnum等分した値がarrayで返されます.stepを指定したい時はnp.arange()で,stepはなんでもいいが特定の数だけほしいという場合はnp.linspace()を使いましょう.stopの値を含むことに注意しましょう.

  • .copy()

arrayをコピーします.本当にそれだけです.コピーされたarrayは全く別のオブジェクトになります.

Pythonでは基本は参照渡しです.NumPy Arrayはmutableなオブジェクトなので,関数内で変更されると,元の変数にも影響があることに気をつけましょう.値渡しにしたいときに.copy()をよく使います.

参照渡しと値渡しについて一度復習しましょう.初心者が最初につまづくところかもしれません.以下の例をみてください.

myfuncにa=’test’の文字列の変数を入れました.aと言う変数はid(a)から140080215091824というIDが割り当てられていて,メモリに保存されています.

myfunc(a)を実行したときに,myfuncの引数paramにaの情報が渡されるわけですが,このparamのIDをみても,同じIDが割り当てられていますね.

つまり,Pythonでは,関数に引数を渡す際には,値をコピーして渡しているのではなく,メモリの参照先(アドレス)を渡しているんですね.これを参照渡しといい,逆に値をコピーして渡すやり方を値渡しと言います.

さて,それでは以下の例をみてみてください.

引数に’ world’を追加して返すという関数を作り,そこにstringsとlistsの二つをそれぞれ渡してみました.

結果はどちらにも’ world’が追加されているのはOKですが,もとのh_strとh_listをみると,h_strは’hello’のままなのに,h_listは’ world’の文字が追加されている状態になります

この挙動の違いは,引数に渡しているオブジェクトがimmutableかmutableかの違いにあります.(mutableというのは’変わりやすい’, immutableは’不変の’と言う意味)

補足
mutable: list, set, dict
immutable: int, float, bool, str, tuple

immutableのオブジェクトは後で値を変更することができないため,関数内で新しい値が代入されると,別の保管場所にその新しい値を保存し,そこを参照するようになります.

逆にmutableのオブジェクトではそのまま元の変数が変更されます.

h_strはStringsでimmutableなのに対し,h_listはListなのでmutableです.そのため, add_world() 内の hello に入った h_listが直接更新されています.

基本的な考え方としては,データ量が巨大になる可能性があるものはmutable,そうでなければimmutableと考えていいと思います.

immutableのオブジェクトを引数に渡して関数内でそれを更新する場合は,結局内部でコピーを作るので値渡しのような挙動になります.NumPyとかListsってたくさんの値を保持することが多いのでデータ量が巨大になりがちです.それをいちいちコピーしてたら大変なので参照渡しの挙動になると考えましょう.

以下はNumPy Arrayの例です. .copy() をしないと直接もとの変数を上書きしてしまうので超注意です.初心者がよくやるバグの原因です.以下の例をみてください.

arrayをそのまま更新している関数(change_hundred)に対して,copyしてから更新している関数(change_hundred_copy)ではもとのarrayが更新されていないです.

関数内で直接arrayを更新する時は気をつけましょう.メモリに余裕があると思ったら .copy() して値渡しにすることを検討しましょう.

  • np.zeros(shape)

こちらも頻出です.いわゆる零行列をつくります.要素が全て0のndarrayです. shapeをタプルで渡しましょう. np.zeros(4) など,タプルではなくintegerを入れるとその数文の一列の零行列ができます.( [0, 0, 0, 0] )

あらかじめndarrayの箱を確保したい時に使います.一旦零行列作ってから要素を変更していって新たな行列を作るイメージです.

  • np.ones(shape)

np.zerosの「1」版です.全ての要素が「1」になります.以上.

  • np.eye(N)

N x Nの単位行列を作ります.単位行列というのは対角成分が全て1となる正方行列です.

行列演算を自分で作る時に,単位行列が必要になるケースはよくあります.また, np.eye(N, M) とすると,N行M列の行列を作ることもできます.(滅多に使いませんが)

  • np.random.rand()

0 ~ 1からランダムな数字で行列を作ることができます.引数を入れなければfloatが,引数の数によって返されるarrayの次元が変わります.

データサイエンスでは乱数が必要になるケースは非常に多いです.たとえばあるデータ分布からランダムサンプリングするときなんかに使えます.

覚えておきましょう.

  • np.random.randn()
np.random.rand() が0 ~ 1からランダムな数字が返されるのに対し, np.random.randn()標準正規分布(平均0, 分散1の正規分布)から値が返されます.なにを言ってるか意味がわからない人は今は気にしなくていいです.統計学講座22回で詳しく説明してます.使い方はnp.random.rand()と同じです.
統計学では標準正規分布を使用する場面が非常に多いです.

  • np.random.randint(low[, high] [, size])

これが,ランダム系で一番使うかもしれません.low以上hight未満のintegerからランダムに,指定したsizeのndarrayを返します.(sizeを指定しなかった場合はintegerを返す)

↑こんな感じで使えます.実際にランダム値を使う時って,ランダムなindexが必要だったりと,0 ~ 1の間のランダム値よりも指定した範囲のintegerのランダム値を使うことの方が多いです.データサイエンス頻出です.

  • .reshape(shape)

超超超頻出です.あるndarrayのshapeを任意のshapeに変換(reshape)します.以下の例をみてください.

.reshape()によりもとのarrayは更新されません.新しいarrayが返されることに注意しましょう.

また,新しいshapeはarrayの要素数と合ってないといけません.以下はエラーになります.

要素数が10個のarrayに対しshape=(2, 3)の行列は要素数が6個なので足りませんね.

.reshape()はとくに画像を扱っているとかなりの頻度で使います.行列演算をするときにも,行列の数を合わせるのに使ったりします.

まとめ

色々紹介しましたが,どれも重要で結構な頻度で出てくると思います.

しかし全部を覚えるのは大変なので,必要に応じてググったりこのページに戻ってきて,その都度覚えるようにしましょう.

  • np.arange([start,] stop[, step]) : start以上stop未満の値をstepずつ増加させた値のarrayを生成
  • np.linspace(start, stop, num=50) : start以上stop未満の値を均等にnum個等分した値のarrayを生成
  • .copy() : NumPy arrayをコピー
  • np.zeros(shape) : 要素が全て0のndarrayを生成
  • np.ones(shape) : 要素が全て1のndarrayを生成
  • np.eye(N) : N x Nの単位行列を生成
  • np.random.rand() : 0 ~ 1からランダムな数字で行列を生成
  • np.random.randn() : 標準正規分布から値をとって行列を生成
  • np.random.randint(low[, hight] [, size]) : low以上hight未満のintegerからランダムに,指定したsizeのndarrayを生成
  • .reshape(shape) : ndarrayのshapeを任意のshapeに変換

 

試しに自分で色々なndarrayを作ってみてください!

次回もまだNumPyが続きます.それでは!

↓次回記事書きました.NumPyの色々な関数を使ってみます!

データサイエンスのためのPython入門⑨〜NumPyでよく使う便利関数〜