イントロ

これまでの畳み込みネットワークでは、層を深くしたり、幅を広げたり、解像度を上げたりと、どれか１つの要素を増やすことで精度を上げてきた。この論文では、畳み込みネットワークの改良について再考し、上記３要素をバランスよく増やして精度を上げる方法を提案している。

複合スケーリング

畳み込みネットワークNは以下のような式で表すことができる。

f:id:Becon147:20191220132048p:plain — ネットワークの定式

なお、
X:入力
H,W:解像度
C:チャンネル数
F:畳み込み層などのオペレータ
添字i:ステージ番号
L:ステージ内の繰り返し回数　である。各ステージは同じ畳み込み層を用い、L回繰り返す。

複合スケーリングではF自体は変えず、（つまり畳み込み層の形状を変えず）L,C,H,Wを増やしていく。さらに設計空間を減らすために、これらすべてを一定の割合で増やしていく。
そのために以下のように問題を再定式する。

f:id:Becon147:20191220133246p:plain — 問題の再定式

w,d,rはスケーリングの係数である。最適なw,d,rを求めるために難点となるのは、互いに依存しており、資源の制約によって値が変わってきてしまうことである。このような難点のため、これまでは一つの要素についてスケーリングしていた。

f:id:Becon147:20191220133839p:plain — w,d,rのみでスケーリングした時のFLOPSとImageNetにおける精度

上図は、w,d,rのみでスケーリングした時の関係図である。
wを大きくすると、きめ細かい特徴が捉えられ、学習しやすくなる。しかし、幅があって浅いネットワークでは高レベルの特徴を捉えるのは難しくなってしまう。
dを大きくすると、複雑な特徴なども取り扱え、他のタスクにも応用しやすくなる。しかし、勾配消失問題の影響で学習が難しくなってしまう。
rを大きくすると、潜在的にきめ細かい特徴が捉えられるが、それだけ層を深くしたり幅を広げたりする必要がある。

またいづれの係数も大きくしていくと、大きなモデルになってしまい、FLOPSの上昇に対する精度の上昇がかなり小さくなってしまうという難点がある。

f:id:Becon147:20191220142010p:plain — wを変化させた時のFLOPSとImageNetにおける精度

上図をみると、wを変化させた時の精度の上昇は、dとrに大きく影響を受けていることがわかる。このことから、w,d,rのバランスがとても重要であることがわかった。

先行研究では、ランダムにパラメータをチューニングしていたが、本論文では、複合スケーリング法を提案する。

f:id:Becon147:20200108222319p:plain — 複合スケーリング法

φは、どれだけモデルスケーリングに資源を用いることができるかによって、ユーザ指定で操作できる変数であり、α、β、γは深さ、幅、解像度にどれだけ資源を割り当てるかを指定する変数である。(α、β、γはグリッドサーチによって決定する。）

EfficientNetの構造

モデルスケーリングでは層の構造を変えることができないので、良いベースラインを用いることが重要である。今回ベースラインとして提案するのがEfficientNetである。以下がその構造である。

f:id:Becon147:20200108230214p:plain — EfficientNet-B0の構造

MnasNetと類似しているが、目標FLOPSが400Mと少し大きいため、少し大きな構造となっている。

このEfficientNet-B0をもとに複合スケーリング法を用いてモデルを拡張していく。まずφを１に固定し、グリッドサーチによりα、β、γを決定する。最適なパラメータは、α＝1.2、β＝1.1、γ＝1.15となった。
次にα、β、γを固定し、Φを徐々に大きくしていく。これにより、EfficientNet-B1~B7を得る。

グリッドサーチはそれぞれのモデルで行なった方が良い精度を期待できるが、モデルが大きいため多大なサーチコストがかかることが予想される。そのため、小さなモデルでのみグリッドサーチを行う。