논문 리뷰/경량화 논문 스터디

[논문 리뷰]The Lottery Ticket Hypothesis, ICLR 2019

공부중인학생 2021. 12. 4. 18:18

 

 

기존 학계의 문제는 pruning을 하고 나서 학습을 random weight로 initialization 하면 pruning 되기 전 모델에 비해서 accuracy가 낮게 나오는 문제가 존재한다는 것입니다.

 

- 그리고 transfer learning으로는 잘 변동이 안 생김

 

  • parameter 수가 작아져서 small capacity를 가지고 있기 때문, parameter 수가 많은 기존 network보다 학습시키기 어렵다는 주장이 유력한 가설!
  • parameter 수가 작아져서 변화할 수 있는 공간이 적어져 표현력이 떨어짐, 기존 network 보다 더 어려워짐

본 논문에서는 pruning된 network를 보다 더 잘 학습시키기 위한 방법을 제안합니다.

 

 

3번까지는 기존 pruning 과정과 동일합니다. 4번째부터는 이전과 다르게 pruning 된 network의 초기 가중치 값을 원래 모델의 초기 가중치값과 동일하게 설정해준다고 합니다.

 

- 이렇게 간단한 방법을 통해서 성능을 올릴 수 있었다고 합니다. 정확한 이유는 안 나와있고 경험적으로 이러한 양상을 보인다고 합니다.

 

 

 

 

- 큰 네트워크와 프룬된 네트워크는 서로 다른 모델인데 초기 가중치를 갖게 해 준다고 잘된다? 두 모델은 서로 다른 모델이라고 봐야 하지 않나? 그래도 어느 정도 큰 줄기가 남아있어 연관성이 존재해서 그런가?

 

나만의 해석

 

가설: 약한 가중치를 잘라내도 큰 가중치들이 존재하던 주요 구조들은 남아 있어 어느정도 연관성이 있는 모델이다.

 

1. 이렇게 연관성이 있는 모델에 원래 모델에서 적용했던 초기 가중치들 중에도 학습이 잘 됐던 초기 가중치 값을 적용해서 그렇다. -> 연관성이 있는 모델이기 때문에 큰 모델에서 잘 적용된 걸 사용하면 초기 가중치값이 랜덤 하게 사용하는 것보다는 더 잘 학습되는 것

 

- random으로 하는 것보다 초기에 해당 모델을 분석하면서 찾은 최적의 초기값을 사용해서 그렇다.

 

2. 큰 모델에 초기값을 설정하여 학습햇을때 영향력이 큰 구조가 pruning 후에도 남습니다. 즉 pruning 된 모델에 다시 이 초기값을 쓰면 그 구조를 잘 활용할 수 있게 됩니다. 그래서 파인 튜닝도 좋은 방법이지만 이 경우 변동이 조금밖에 되지 않기 때문에. 원래 초기값을 사용하는 방법이 해당 구조를 만들어준 친구이면서 해당 구조에 알맞게 변동도 된다.

 

- 해당 구조를 만들어준 초기값이여서 해당 구조를 더 잘 사용한다.

 

 

논문으로 공부하면서 느끼는 것이지만 정확한 이유보다는 "어 이거 사용해보니까 잘 되네?" 와 같은 경험적인 내용들이 많아서 더 어려운 것 같습니다.