ディープラーニングの開発環境を構築しよう ③coco dataset
今回からppnの中身について見ていきます。
まずは基本ですが、「README」を見ていきます。
英語で書いてます。Google翻訳とか使って頑張って読みます。
ざっくり要約すると、
1.ppnにはデータセットが必要です。MPIIとcocoの2種類があるので、好きな方をダウンロードしてください。
2.既に学習したモデルがありますので、必要な方はダウンロードしてください。
3.色々パラメーラを設定するには、「config.ini」をいじる必要があります。
4.「video.py」で、作者のデモを体験できるようです。
今回は上記1、2について、次回は3,4について紹介します。
では前回も書いたとおり、cocoのデータセットを使います。
以下のサイトからデータセットをダウンロードしましょう。
「Dataset」→「Download」の順でアクセスすると、大きく「Images」と「Annotation」と書かれた文字があると思います。
その下に青文字のリンクで、以下のように2行続く形です
Images:
画像データの集まりになります。数千~数万枚の画像データ(.jpg形式)があり、Train(学習用)とVal(評価用)の2種類が存在します。
Trainはモデル(ニューラルネットワークの集まり)を学習させる際に必要となりますが、動きを確認するだけならValデータだけで十分です。
Trainデータは見てわかるとおり、18GBとかあるので、ダウンロードだけでもものすごい時間かかります。。
READMEにもあったとおり、既に学習済のモデルがあるようなので、それを使わせていただくことにします。
Annotation:
Imagesの画像データに対応した正解値です。.json形式のファイルが入っており、Imagesの情報を数値化したファイルです。
例えば、000001000.jpgというImagesがあったとすると、そのIDとして「1000」という情報が入ってたり、人の骨格情報を座標値(x,y)として一括で管理されているようなものです。
この2つを使って、画像中の人を認識(推定)することができるようです。
今回は、「2017 Val images」と「2017 Train/Val annotations」を使います。
ダウンロードしたら、ppnフォルダの中に「Images」と「annotation」フォルダとして、以下のように保存します。
これで、データセットの準備は完了です。
今回はここまで。
次回から、実際のソースコードの中身を見ていきます。
エディタはVisual Studio Codeを使い、使用する言語はPythonになります。