SNIP: Single-shot Network Pruning based on Connection Sensitivity

논문 리뷰/경량화 논문 스터디

SNIP: Single-shot Network Pruning based on Connection Sensitivity - ICLR 2019

공부중인학생 2022. 12. 15. 03:00

기존 pruning 기법들이 성능에 있어 불투명한 hyperparmeter를 사용하거나 여러 번에 거쳐서 pruning을 진행하는 것을 지적하며 single-shot pruning을 제안!

1. 기존 pruning 기법의 한계

Dataset $D = {(x_{i}, y i)} {i = 1}^{n}$ 가 주어지고, 목표로 하는 sparsity level이 $k$ 인 NN Pruning을 constrained optimization 문제로 표현할 수 있다.

$\begin{aligned} min_{c, w} L (w; D) & = min \frac{1}{n} \sum_{i = 1}^{n} l (w; (x_{i}, y_{i})) \\ s.t. w & \in R^{m}, | | w | |_{0} \leq k, \end{aligned}$

여기서 $l (\cdot)$ 은 cross entropy와 같은 일반적인 loss function이며, $w$ 는 NN의 set of paramrter, $m$ 은 총 parameter 수이다.

정의된 최적화 문제는 보통 미리 학습한 network를 pruning하고 fine-tuning하는 과정을 반복하는 iterative하고 휴리스틱한 방법이 주로 사용됨.
대부분의 pruning 기법이 FCN, CNN 등 architecture에 의존성이 있으며, 또한 pruning 과정에 사용되는 hyper-parameter가 많이 사용하는데 이를 구하는 과정이 휴리스틱한 경우가 많다.

2. One-Shot Pruning Method

본 논문에서는 training 전에 한번의 pruning을 수행하여 parameter를 줄이는 방법을 제안한다.
Network의 각 element의 삭제 여부를 나타내는 auxiliary indicator variance $c \in {0, 1}^{m}$ 를 정의하고 최적화 문제를 다음과 같이 수정함.

$\begin{aligned} min_{c, w} L (c ⊙ w; D) & = min \frac{1}{n} \sum_{i = 1}^{n} l (c ⊙ w; (x_{i}, y_{i})) \\ s.t. w & \in R^{m}, \\ c & \in {0, 1}^{m}, | | c | |_{0} \leq k, \end{aligned}$

parameter $c$ 로 인해 학습해야할 parameter가 2배가 되어 바로 optimize가 어려워짐. 하지만 pruning 여부, 즉 $c$ 에 따른 성능 변화에 대해서 loss를 정의하면 weight와 무관하게 최적화 할 수 있음.
Pruning의 효과를 loss의 차이를 이용하여 표현할 수 있다. m개의 connection이 각각 loss에 미치는 영향을 얻기 위해 m번의 forward pass를 계산해야 함. → 연산이 복잡함

$\begin{aligned} Δ L_{j} (w; D) & = L (1 ⊙ w; D) - L ((1 - e_{j}) ⊙ w; D) \end{aligned}$

weight가 아닌 c에 대한 효과로 다시 표현 가능함. (index j의 효과를 제거)

$\begin{aligned} Δ L_{j} (w; D) & \approx g_{i} (w, D) \\ = {\frac{\partial L (c ⊙ w; D)}{\partial c_{j}} |}_{c = 1} \\ = {lim_{δ \to 0} \frac{L (c ⊙ w; D) - L ((c - δ e_{j}) ⊙ w; D)}{δ} |}_{c = 1} \end{aligned}$

여기서 $c \in {0, 1}^{m}$ 는 미분 불가하므로, 극소 변화에 대한 변화량으로 근사화 함.

weight에 dependency가 적고 한번의 forward pass로 모든 connection을 평가할 수 있는 "connection sensitivity"를 정의하고, 한번의 forward pass를 통해 모든 connection의 sensitivity를 계산함.

$s_{j} = \frac{| g_{j} (w; D) |}{\sum_{k = 1}^{m} | g_{k} (w; D) |}$

3. Experimental Result

다음과 같은 순서로 pruning을 수행함.
1. network의 parameter를 초기화
2. mini-batch sampling $D^{b} = {(x_{i}, y i)}^{b} j = 1 \sim D$
3. Connection sensitivity를 계산 $s_{j} \forall j \in {1, . . ., m}$
4. Top- $k$ 의 parameter만 남기고 pruning
5. pruned network를 학습
다른 pruning 기법 대비 간단한 방법으로 좋은 성능을 나타냄.

random label을 적용한 결과 pruned network의 경우 loss가 감소하지 않음.

- network의 memorization 문제를 방지할 수 있다!

'논문 리뷰 > 경량화 논문 스터디' 카테고리의 다른 글

[논문 리뷰] Fast and Accurate Single-Image Depth Estimation on Mobile Devices, Mobile AI 2021 Challenge: Report (0)	2022.01.03
[논문 리뷰]The Lottery Ticket Hypothesis, ICLR 2019 (0)	2021.12.04
[논문 리뷰] Distilling the Knowledge in a Neural Network (NIPS 2014 Workshop) (0)	2021.10.26
[논문 리뷰] GhostNet: More Features from Cheap Operations, CVPR 2020 (0)	2021.10.06
[논문 리뷰]AdderNet: Do We Really Need Multiplications in Deep Learning?, CVPR 2020 (0)	2021.09.29

현재글SNIP: Single-shot Network Pruning based on Connection Sensitivity - ICLR 2019

비전공자이기에 열심히 노력하는 중입니다! https://github.com/audrb1999

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

ML, DL 정리 블로그