논문 리뷰/경량화 논문 스터디 10

SNIP: Single-shot Network Pruning based on Connection Sensitivity - ICLR 2019

기존 pruning 기법들이 성능에 있어 불투명한 hyperparmeter를 사용하거나 여러 번에 거쳐서 pruning을 진행하는 것을 지적하며 single-shot pruning을 제안! 1. 기존 pruning 기법의 한계 Dataset $\mathcal{D}=\{(\mathbf{x}_i, \mathbf{y}i)\}{i=1}^{n}$가 주어지고, 목표로 하는 sparsity level이 $k$인 NN Pruning을 constrained optimization 문제로 표현할 수 있다. $$\begin{aligned} \min_{\mathbf{c}, \mathbf{w}}L( \mathbf{w};\mathcal{D})&=\min \frac{1}{n}\sum_{i=1}^{n}\mathcal{l}(\math..

[논문 리뷰] Fast and Accurate Single-Image Depth Estimation on Mobile Devices, Mobile AI 2021 Challenge: Report

Depth estimation은 모바일 환경에서 필요한 컴퓨터 비전 기술 중 하나이지만 현재 제안된 솔루션들은 계산 비용이 많이 들어 장치에서의 추론 작업이 힘들었습니다. 본 논문은 이러한 문제점을 해결하기 위해서 여러 가지 방법들을 적용해보고 그 결과를 정리한 내용입니다. 1. Environments Raspberri pi 4 (Broadcom BMC2711, Cortex-A72, 1.5 GHz) Raspberry Pi OS (linux) TensorFlow Lite 2.5.0 Linux build 2. Dataset RGB-16bit-depth image pairs was collected using ZED stereo camera average depth estimation error of less..

[논문 리뷰]The Lottery Ticket Hypothesis, ICLR 2019

기존 학계의 문제는 pruning을 하고 나서 학습을 random weight로 initialization 하면 pruning 되기 전 모델에 비해서 accuracy가 낮게 나오는 문제가 존재한다는 것입니다. - 그리고 transfer learning으로는 잘 변동이 안 생김 parameter 수가 작아져서 small capacity를 가지고 있기 때문, parameter 수가 많은 기존 network보다 학습시키기 어렵다는 주장이 유력한 가설! parameter 수가 작아져서 변화할 수 있는 공간이 적어져 표현력이 떨어짐, 기존 network 보다 더 어려워짐 본 논문에서는 pruning된 network를 보다 더 잘 학습시키기 위한 방법을 제안합니다. 3번까지는 기존 pruning 과정과 동일합니다...

[논문 리뷰] Distilling the Knowledge in a Neural Network (NIPS 2014 Workshop)

이 논문은 처음으로 knowledge distillation이라는 개념을 제시한 논문입니다. pruning과 비슷하게 이전에 있던 모델을 사용할 수 있다는 점에서 활용도가 높을 거 같아 관심을 가지게 됐습니다. 2021년 10월 25일 기준으로 7705회 인용됐습니다. 모델을 만들 때 성능을 쉽게 올리는 방법 중 하나는 Ensemble입니다. 각각의 모델들이 test error가 비슷하다고 하더라도 ensemble 한 결과는 더 낮은 test error를 보여줍니다. 하지만 ensemble 모델을 사용하기에는 너무 많은 컴퓨터 비용이 필요하기 때문에 일반적인 상황에서는 사용하기가 쉽지 않습니다. 그래서 본 논문에서는 ensemble을 통해 얻을 수 있는 generalization 능력을 더 작은 규모의 ..

[논문 리뷰] GhostNet: More Features from Cheap Operations, CVPR 2020

저번에 발표된 논문은 GhostNet: More Features from Cheap Operations, CVPR 2020 입니다. 이 논문에서는 Feature Map 중복(Redundancy)에 대해서 조금 더 간단하게 만들기 위한 방법을 제안합니다. 중복된 피쳐들은 성공적인 딥러닝 모델의 특징입니다. Ghost Feature(중복 피쳐)를 Linear transformation을 통해서 만드는 방법을 사용하여 생성하게 되는데 이 방법은 기존 방법(Convolution)에 비해 연산량이 적습니다. Ghost Feature은 유사한 두 이미지가 유령사진처럼 보인다고 해서 Ghost라고 부릅니다. 이런 이미지들을 비용이 비싼 Convolution 연산으로 구하는 것이 아니라 Linear Transfer을 ..

[논문 리뷰]AdderNet: Do We Really Need Multiplications in Deep Learning?, CVPR 2020

이번에 스터디에서 발표된 논문은 AdderNetwork입니다. 이 논문을 읽으면서 의문점이 많이 들어서 따로 자료들을 더 찾아봐야겠습니다. Conv Layer에서 기존에 사용하는 multiplications 연산은 상당한 량의 GPU 메모리와 전력을 소비합니다. 이 때문에 다른 휴대용 기기에 사용하기가 어려워 MobileNet과 같이 경량화된 모델이 제안됐지만 여전히 많은 연산량이 필요합니다. 본 논문에서는 Adder을 활용하여 연산량을 줄이는 방법을 사용합니다. 기존에는 BNN 등 다양한 이진화 과정을 거쳐 경량화했지만 이 방법은 학습 속도 저하와 성능 손실이 발생하는 문제들이 있었습니다. 제시된 방법은 다음과 같습니다. 1. Convolution 연산은 filter와 입력의 유사도를 측정하는 방법으로..

[논문 리뷰] 경량화 기술 동향

- 경량화 기술 동향: https://ettrends.etri.re.kr/ettrends/176/0905176005/34-2_40-50.pdf 최근 들어 여러 분야에서 딥러닝 모델이 만들어졌지만 경량 디바이스, 모바일 디바이스 등과 같은 컴퓨터 자원이 부족한 기기들에서는 직접 학습이나 추론을 진행하기에는 아직 부족한 점이 많습니다. 그래서 현재 경량 딥러닝 연구가 활발하게 진행 중입니다. 경량화를 통한 이점은 크게 본다면 다음과 같습니다. 1. 지연시간 감소 2. 민감한 개인 정보 보호 (?) 3. 네트워크 트래픽 감소 등 경량화 연구에는 알고리즘 자체를 적은 연산과 효율적인 구조로 설계하는 경량 딥러닝 연구와 만들어진 모델의 파라미터들을 줄여주는 모델 압축 등의 기법이 적용된 알고리즘 경량화 기술이 존..

[논문 리뷰]Rethinking the Value of Network Pruning, ICLR 2019

스터디에서 발표된 Rethinking the Value of Network Pruning을 정리하겠습니다. Pruning은 이미 학습되어 있는 모델에서 비교적 간편하게 성능을 증가시키는 방법 중 하나입니다. 간단하게 말하면 Network Pruning은 약한 연결을 가지치기 하듯 잘라내어 모델 크기를 줄이는 방식으로 경량화를 시킵니다. 일반적인 Pruning 과정은 다음의 3가지 스텝에 따라 진행됩니다. 무겁고 큰 모델을 학습시켜 정확도를 최대한 높입니다. 무겁고 큰 모델에서 중요하지 않은 가중치를 잘라냅니다. 작아진 모델의 정확도를 향상 시키기 위해 파인 튜닝을 합니다.(큰 모델의 가중치를 전달?) 이러한 과정을 진행하는 이유는 다음과 같습니다. 작은 모델에서 불필요한 가중치를 없애는 것보다 큰 모델에..

[논문 리뷰]EfficientNetV2: Smaller Models and Faster Training

모델 사이즈와 데이터 셋 사이즈가 증가함에 따라 학습의 효율성은 더 중요해집니다. GPT-3는 큰 모델과 많은 학습데이터로 few shot learning에서 좋은 성능을 보여주지만 학습하기 위해서는 몇 주의 훈련과 많은 TPU를 요구하기에 성능을 더 개선시키거나 retrain하기가 어렵다는 점에서 training efficiency의 중요성을 알 수 있습니다. 이 논문은 이전 EfficientNetV1에서 생겼던 문제점들을 해결하여 더 빠른 학습 속도와 더 좋은 파라미터 효율을 가진 모델 EfficientNetV2를 소개하고 있습니다. 그래프를 통해 다른 모델과 비교했을 때 EfficientNetV2가 5~11배 더 빠른 학습 속도와 더 좋은 파라미터 효율을 보여주는 것을 알 수 있습니다. 다른 모델들..

[논문 리뷰]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

이번 경량화 스터디를 준비하면서 첫 번째로 발표하게 된 논문입니다. 논문의 부제로는 "Rethinking Model Scaling for Convolutional Neural Networks" 간단하게 말하면 "CNN 모델 확장에 대해 다시 생각해보자" 입니다. 제가 생각하기에는 이 논문을 간단히 요약해보자면 다음과 같습니다. CNN의 성능을 높이기 위해 모델 크기를 증가시켰지만(정확도만 고려해서), 이 방법은 하드웨어적 한계가 존재한다. 우리는 효율성과 정확도 둘 다 고려할 수 있는 방법을 구상했고, 그 방법은 depth, width, image resolution을 전부 사용하여 모델을 키우는 방식이다. 이전까지 방식에서는 depth, width, image resolution 중에서 하나만을 사용하..

반응형