データサイエンスのためのPython入門28〜OpenCVによる画像の読み込みと色空間の変換,表示〜

グローバルでAI開発者・データサイエンティストを目指す人向け
おすすめUdemy講座一覧

TOEIC300→海外就職の英語勉強法まとめ

こんにちは,米国データサイエンティストのかめ(@usdatascientist)です.

データサイエンスのためのPython入門第28回です(講座の目次はこちら).今日はOpenCVというライブラリを使って,Pythonで画像を読み込んで表示してみようと思います!

データサイエンティストが扱うデータは,今まで扱っていたような(タイタニックデータのような)表形式のデータだけではありません.

PNGファイルのような画像データやmp3のような音声ファイルやmp4のような動画,DICOMデータのような医用画像データなど,文字通り「データ」と名前がつくもの’全て’です.

特に画像データは,昨今の深層学習によるブレークスルーの中心的なモダリティであり,近年多くの研究者が他分野から画像処理・画像認識に流れており,目まぐるしいスピードで研究が進んでいる分野でもあります.

私も仕事では画像データを扱っていますし,私の専門分野でもあります.

ひと昔前は画像分野の多くの研究がC++で実装されていましたが,最近はPythonが主流だと思います.多くの論文の実装がPythonで書かれています.

おそらく読者の中には画像データをそもそも扱ったことがない人もいると思いますが,今回は本当に触りだけ扱うので,心配しないでください.

画像を読み込んで表示する だけです.画像処理や画像認識のアルゴリズムは出てきません.それらを説明すると新たな講座ができてしまう量になるのでw

でも,せっかくPythonでデータサイエンスを学習するならいずれは深層学習や画像認識にも手をだして,いわゆる「AI」の開発にも興味を持って欲しいです.

OpenCV

コンピュータ・ビジョンのためのオープンソースライブラリです.

「コンピュータ・ビジョン」というのはコンピュータに画像や動画を理解させる研究分野だと思ってください.例えばデジカメで写真をとるときに,人の顔に枠がでますよね?あれは顔認識アルゴリズムがデジカメに組み込まれているのですが,あれもコンピュータ・ビジョンの分野です.

他にもGoogleの画像検索とか,Kinectの姿勢推定もコンピュータ・ビジョンです.

私も大学院の研究や仕事でコンピュータ・ビジョンを扱っています.本当に魅力たっぷりの分野なので,是非いろんな人にその魅力を伝えたいんですが,今回の講座の趣旨とそれるので自粛しますw

OpenCVは「コンピュータ・ビジョン」のアルゴリズムを簡単に使えるライブラリで,画像を扱う際には必須のライブラリです.

例えば画像の輪郭だけ書いてくれたり色空間(白黒とか)を変更したり,いろんなことがめちゃくちゃ簡単にできます.

もともとはC++で書かれたライブラリですが,Pythonラッパーもかなりアクティブに開発されており,Pythonで問題なく使えます.

Python用画像処理系ライブラリには他に,Python Imaging Library (PIL)と呼ばれるものがありますが,OpenCVの方が深層学習系のライブラリ(TensorFlow, PyTorchやCaffeなど)との相性もよく,最近ではPILよりOpenCVの方が使われていると思います.

私のチームでも,PILを使っている人はほとんどいませんし,私も開発はすべてOpenCVでコードを書いてます.

OpenCVをインストール&インポート

それでは早速OpenCVをインストールしましょう.

今までのライブラリ(NumPy, Pandas, matplotlibやSeaborn)はAnacondaに入っていたので特にインストールは不要だったんですが,OpenCVはAnacondaに入ってません!!

なので別途インストールが必要です.ついにこの日が来てしまいましたね!

基本的には $pip install opencv-python でインストール可能ですが,場合によっては事前に関連パッケージのインストールが必要です.

せっかくなのでこれを機にDocker環境の更新手順を紹介したいと思います.

以下は第一回に沿って環境をセットアップした人向けです.

1.Dockerコンテナに入ってopencvをインストール

以下のコマンドでDockerコンテナに入ります.(コンテナ名は $docker ps で確認しましょう.この辺りの操作がアヤしい人は,Docker講座の第3回参照してね)

コンテナに入れました.

2. OpenCVをインストール

そしたら $pip install opencv-python でopencvライブラリをインストールします.私の環境ではopencvを入れる前に以下のコマンドで関連パッケージをインストールする必要がありました.(参考ページ)

おそらくみなさんも同じかと思いますが,バージョンによって異なると思うので必要に応じてググってみてください.

3. OpenCVをインポートしてみる

インストールが完了したら,JupyterHubでopencvをインポートできることを確認しましょう.

opencvをインポートするには import cv2 でOKです.

cv2を使ってOpenCVの色々な関数を使えるようになります!

4. Dockerfileを更新する

次回Dockerfileをrunした時用に,第一回で作成したDockerfileに以下のコマンドを追記しておきましょう

一番後ろの行に追記する形でいいと思いますが,今回はpipのupgrade前に追記しました.全体のファイルは以下のようになります.

Dockerfileの更新についてはDocker講座第5回を参照ください.

今回はrunしませんが,各自必要な時にrunしてみてください.

OpenCVを使って画像を表示する

今回はlennaの画像でも使おうかなと思います.↓の画像をダウンロードして,「lenna.png」という名前で,Dockerからアクセスできるところ(私の環境では~/Desktop/ds_pythonフォルダ)においてください.(第一回でdocker runした際の-vオプションです.)

補足
この写真,実はコンピュータ・ビジョン界隈では非常に有名な写真で,様々な論文で,「サンプル画像」として使われています. もともとはPLAYBOY誌のグラビア(ヌード)写真から切り取った写真で,1970年代前半に最初に使われたらしく,当初は「けしからん」と論争を巻き起こしたとか.今ではすっかりおなじみの画像になりました.ちなみに「Lena Forsen」が本名ですが,正しい発音に近いlennaが一般的に使われてます.(どっちでもいいわっ)
  • cv2.imread()で画像をNumPy Arrayで読み込む

cv2で画像を読み込むには cv2.imread() 関数にファイルパスを指定して読み込みます.読み込んだあとは,その画像をNumPy Arrayとして扱うことができます.

lennaの中身をみるとndarrayになっているのがわかると思います.そうです,第6回でやったndarrayです.ndarrayがアヤしい人はNumPy編を復習してください.

読み込んだndarrayは(220, 220, 3)というshapeのndarrayであることがわかります.

これは画像の(高さ, 横幅, channel数)を表しています.高さと横幅は当然ピクセル数で,channelというのは画像の色を表現するのに使うもので,Red, Green, Blueの3channelであり,「RGB」というchannelでデータが保存されるのが一般的です.(後述しますが,OpenCVはデフォルトで「BGR」です.気をつけてください.)

この説明だけだとピンとこない人もいると思います.

もう少し詳しく説明すると,色を表現するにはいくつか方法があり,その一つに「赤・緑・青の3色の光を足し合わせる(加法混色)」という方法があります.

各ピクセルの値はその光(Rなら赤)の強さを表しており,それを輝度値(Intensity)と呼びます.OpenCVではデフォルトで0~255の256(8bit)階調で表します.通常,画像は8bitで保存されます.

輝度値が0ということは光が0なので暗く,255というのは輝度値がMAXなので明るくなります.R, G, Bの各channelで255の値を持つピクセルは,それらを合わせると白になり,0なら黒になります.

・・・何となく分かりましたか?多分一番最初は理解するのはむずかしいんじゃないかな.今まで画像をデジタルのデータとして扱ってきたことがないと思うのでピンとこないかもしれませんが,今完全に理解する必要はないと思います.

  • plt.imshow()で画像を表示する

それでは,読み込んだndarrayをjupyterで表示してみましょう.

画像を表示するには第20回で紹介したmatplotlibを使います.

plt.imshow() という関数にndarrayを入れると,ndarrayを画像として表示してくれます.

ちゃんとlenaの画像が表示されました!

・・・が,なんか青いですよね?

実はこれ,OpenCVは画像を読み込む際に色空間をBGRで読んでいて,matplotlibではRGBで表示しているからです.

つまり,青と赤が逆になってしまっているってこと

現代一般的に使われるのはRGBなんですが,OpenCVはBGRで読み込みます.これには歴史的背景があるんですが,今日は触れません.興味がある方はググってみてください.

とにかくこれがややこしい上に予期せぬバグを起こしやすいです.初学者は特に注意です.

lennaの画像は幸いRとBが逆になると明らかに見た目が違うんで気づきますけど,そうでない画像も多いです.

すると気づかずRとBを逆に捉えていて,「あるコードではRGB,別のコードではBGRで処理してた」なんてこともありえます.

  • ではどうすればいいか?→BGRからRGBに変換する

BGRで読み込んだ画像をRGBに変換しましょう.OpenCVには様々な色空間を変換する関数が用意れています.

cv2.cvtColor() 関数を使うことで様々な色空間の変換が可能です.(cvtはconvertの略です)

使い方はちょっと不思議です. cv2.cvtColor() の第一引数にndarrayを,第二引数に「なにからなにへの変換」なのかを示すcodeを指定します.

codeはcv2モジュールに入っています.cv2.COLOR_に続く変数がそれです.Jupyterではcv2.COLORと打ってTabキーを押すと補完候補をみることができます.

今回はBGRをRGBに変換するので cv2.COLOR_BGR2RGB を入れます.ほんと見られない形なので,慣れるのに時間かかりますが,慣れるとパッと打てるようになります.

C++ネイティブのライブラリでインタフェースを揃えてるので,このように少し違和感のある書き方になってしまいますが,慣れるしかないです.

OpenCVはほんとにできることが多くて,私も毎日のように使っているライブラリです.画像処理って処理が目に見えるのでやり始めると結構楽しいので,是非色々試してみてほしいです.

さらに勉強したい人は,英語ですがこちらに色々と教材があります.みてみてください.

ちょっとした画像処理をするならこちらが分かりやすいと思います.

まとめ

今回は画像を読み込んで表示する方法と,色空間の変更について紹介しました.

ほんとに触り部分しか触れていませんが,今回の内容をまとめると

  • OpenCVはC++で書かれた画像処理ライブラリ
  • import cv2でOpenCVをインポート
  • cv2.imread(ファイルパス)でNumPy Arrayとして画像を読み込む
  • plt.imshow()にNumPy Arrayを入れることで画像として表示する
  • OpenCVはデフォルトでBGRとして画像を読み込む一方,matplotlibはデフォルトでRGBとして画像を扱う
  • cv2.cvtColor(img, cv2.COLOR_BGR2RGB)でBGRからRGBにchannelの並び(色空間)を変更する

OpenCVはほぼ99%画像を扱う際に使うライブラリです.画像を使わない人は,OpenCVを使うことはないと思います.

今回はこの辺で

そろそろ本講座も終わりに近いです...!

それでは!

追記:次回書きました.次回はデータサイエンス頻出のglob()関数について基本的な使い方とよくある応用例を紹介します!

データサイエンスのためのPython入門29〜globの使い方・応用まで完全解説〜