機械学習メモ

機械学習メモ

This project is maintained by kino-3

VGG

参考文献

論文

Very Deep Convolutional Networks for Large-Scale Image Recognition

https://arxiv.org/abs/1409.1556

モデルなど

内容

概要

構造

構造の詳細は下表の Table.1 の通りである。ただし, conv3-256 はカーネルサイズが 3 * 3 で, 出力のチャンネル数が 256 であることを表す。

table

Table.2 は学習する重みの個数であり, VGG19 で 1.44 億個と深さの割に多くはない。

なお, 局所応答正規化 (n 個の近傍の特徴マップ(チャンネル)間で, 同じ位置にあるピクセルについて正規化する) を行っても精度は向上せず, メモリ消費と時間時間が増えるだけなので行わなかった。

考察

重みの個数が少なく精度が良い理由として, 次のことが考えられる。

7 * 7 の大きさの受容野の畳み込み層(入出力のチャンネル数を $ C $ とする)の実現方法として, 次の 2 つの方法が挙げられる。

方法 2 は方法 1 と比較して, 次のメリットがある。

訓練方法

収束までのエポック数が少ない理由として, 次の 2 つが考えられる。

また, 入力画像は次の方法で取得される。

テスト方法