
๊ธฐ๋ณธ ์์

๐๏ธDenseNet
Dense Convolutional Network
DenseNet์ ๋ ์ด์ด๋ง๋ค ์ด์ ์ ๋ชจ๋ ์ถ๋ ฅ(feature map)์ ๋ค์ ๋ ์ด์ด์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ค. ์ฆ, ๊ฐ ๋ ์ด์ด๊ฐ ์์ ๋ชจ๋ ๋ ์ด์ด์ ์ถ๋ ฅ์ concatํด์ ์ ๋ ฅ์ผ๋ก ๋ฐ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ํน์ง์ ์ฌ์ฌ์ฉ์ด ์ผ์ด๋๊ณ , ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๋ฅผ ์ค์ด๋ฉฐ, ๋งค์ฐ ์ ์ ํ๋ผ๋ฏธํฐ๋ก๋ ๋์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค.
๊ตฌ์กฐ ํต์ฌ
- Dense Block ๋ด๋ถ์ ๋ ์ด์ด๋ค์ ์๋ก ์ด์ดํ๊ฒ ์ฐ๊ฒฐ๋๋ค(dense connectivity)
- Transition Layer๋ก ๋ธ๋ก ๊ฐ ์ฐ๊ฒฐ, ์ฑ๋ ์ ์ค์(BN -> 1x1 Conv -> 2x2 AvgPool)
- ๊ฐ ๋ ์ด์ด๋ BatchNorm -> ReLU -> Conv(3x3) ์์
DenseNet์ ํ๋ผ๋ฏธํฐ ์๊ฐ ์ ๊ณ , ํ์ต์ด ๋น ๋ฅด๊ณ ์์ ์ ์ด๋ค. ์ ๋ณด ํ๋ฆ์ด ๊ฐํ๋์ด ์์ ๋คํธ์ํฌ์์๋ ๋์ ์ ํ๋๋ฅผ ๋ผ ์ ์๋ค๋ ์ฅ์ ์ด ์๋ค.
๐ฑMobileNet
MobileNet์ ๊ฒฝ๋ํ๋ฅผ ์ํด Depthwise Separable Convolution์ ์ฌ์ฉํ๋ค. ์ผ๋ฐ์ ์ธ Conv ์ฐ์ฐ์ ๋ ๋จ๊ณ๋ก ๋ถ๋ฆฌํด์ ํจ์จ์ ๊ทน๋ํํ ๊ฒ.
๊ตฌ์กฐ ํต์ฌ
- Depthwise Conv
- ์ฑ๋๋ณ๋ก ๊ฐ๊ฐ 1๊ฐ์ ํํฐ๋ง ์ฌ์ฉํ๋ ๊ณต๊ฐ ํํฐ๋ง
- ๊ณ์ฐ๋์ด 1/N ์์ค์ผ๋ก ๊ฐ์
- Poinwise Conv(1x1 Conv)
- ์ฑ๋ ๊ฐ ์ ๋ณด๋ฅผ ์๊ธฐ ์ํ 1x1 Convolution
- ํํฐ ์๋ฅผ ์กฐ์ ํ๋ฉฐ ๋คํธ์ํฌ์ ์ฐจ์์ ๋ณํ์ํด
์ด ๋ ๋จ๊ณ๋ฅผ ๋ฐ๋ณตํ๋ฉฐ ํน์ง์ ์ถ์ถํ๋ค.
MobileNet์ ์ฐ์ฐ๋๊ณผ ํ๋ผ๋ฏธํฐ ์๊ฐ ๋ํญ ๊ฐ์ํ์ฌ, ๋ชจ๋ฐ์ผ ํ๊ฒฝ์์๋ ๋น ๋ฅธ ์ถ๋ก ์ด ๊ฐ๋ฅํ๋ค. ์ ํ๋๋ฅผ ํฌ๊ฒ ์์ง ์์ผ๋ฉด์๋ ํจ์จ์ ์ธ ๋ชจ๋ธ์ด๋ค.
โ EfficientNet
EfficientNet์ ๋ชจ๋ธ์ ๋จ์ํ ๊น๊ฒ, ๋๊ฒ, ํฌ๊ฒ ํ๋ ๊ฒ์ด ์๋, ์ธ ๊ฐ์ง๋ฅผ ๊ท ํ ์๊ฒ ์กฐ์ (Compound Scailing)ํ๋ ๊ตฌ์กฐ์ด๋ค.
๊ตฌ์กฐ ํต์ฌ
- ๊ธฐ๋ณธ ๋ฒ ์ด์ค ๋ชจ๋ธ์ MBConv ๋ธ๋ก(MobileNet์ inverted residual block + SE block)์ ์ฌ์ฉ
- ์ดํ B1 - B7์ compound coefficient๋ฅผ ์ ์ฉํ์ฌ scailing
ํน์ง ๊ตฌ์ฑ
- Inverted Residual Block
- SE(squeeze-and-Excitation) Block
- Swish Activation
EfficientNet์ ๋์ผํ ์์์ผ๋ก๋ ๋ ๋์ ์ ํ๋๋ฅผ ๊ฐ์ง๋ฉฐ, ๊ฒฝ๋์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ๋ฌ์ฑํ ๋ชจ๋ธ์ด๋ค. Transfer Learning์๋ ํ์ํ ๋ชจ๋ธ
Inverted Residual Block (์ญ์์ฐจ ๋ธ๋ก)
์๋ ResNet์์๋ ์ ๋ ฅ->์์ ์ฐจ์ ->์ฒ๋ฆฌ->๋๋๋ฆฌ๋ ๋ฐฉ์์ด์์ง๋ง, ์ญ์์ฐจ ๋ธ๋ก์ ๊ทธ ๋ฐ๋๋ก ์๋ํ๋ค.
๊ตฌ์กฐ ํต์ฌ
- ๋จผ์ ์ฑ๋ ์๋ฅผ ํ์ฅํ๊ณ (1x1 Conv)
- Depthwise Conv๋ฅผ ์ ์ฉ(์ฑ๋๋ณ ํํฐ)
- ๋ค์ ์ฑ๋ ์ ์ถ์(1x1 Conv)
- ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ Add(๋จ, stride๊ฐ 1์ผ ๋ skip ์ฐ๊ฒฐ)
MobileNetV2๋ถํฐ MobileNetV3, EfficientNet์์ ํต์ฌ ๊ตฌ์ฑ ์์๋ก ์ฌ์ฉ๋๋ค.
SE Block
ํน์ง๋งต์ ์ด๋ค ์ฑ๋์ด ์ค์ํ๊ฐ๋ฅผ ํ์ตํ๋ ๊ตฌ์กฐ์ด๋ค.
๋์ ์๋ฆฌ
- squeeze: global average pooling์ผ๋ก ์ฑ๋๋น ํน์ง์ 1๊ฐ์ ๊ฐ์ผ๋ก ์์ถ
- Excitation: ์์ FC-layer์ ๋ ๋ฒ ํต๊ณผ์ํค๋ฉฐ, ์ค์๋๋ฅผ ํ์ต
- Scale: ์๋ ํน์ง๋งต ์ฑ๋๋ง๋ค ์ค์๋๋ฅผ ๊ณฑํด์ค(์ฑ๋-wise attention)
์ค์ ํน์ง์ ์ง์คํ๊ฒ ํ๋ค. ๊ณ์ฐ๋์ ์ ์ผ๋ฉด์๋ ์ฑ๋ฅ์ ํฅ์ํ ์ ์๊ณ , ์ฌ๋ฌ ๋ชจ๋ธ์ ์ฝ๊ฒ ๊ฒฐํฉํ ์ ์๋ค.
Swish ํจ์
ReLU๋ณด๋ค ๋ถ๋๋ฝ๊ณ , ๋น์ ํ์ฑ์ด ๋ ๋๋ค.
Swish(x) = x * sigmoid(x)
ํน์ง
- x๊ฐ ์์ผ๋ฉด ์์ ๊ฐ์ ํ์ฉํ์ฌ ์ ๋ณด ์์ค์ด ์ค์ด๋ฆ
- ๋ฏธ๋ถ ๊ฐ๋ฅํ๊ณ gradient ํ๋ฆ์ด ์์ฐ์ค๋ฌ์
- ReLU๋ณด๋ค ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋ ์ข๋ค๊ณ ์๋ ค์ง
- EfficientNet์ ์ฃผ์ ๊ตฌ์ฑ ์์
