논문 리뷰 14

SNIP: Single-shot Network Pruning based on Connection Sensitivity - ICLR 2019

기존 pruning 기법들이 성능에 있어 불투명한 hyperparmeter를 사용하거나 여러 번에 거쳐서 pruning을 진행하는 것을 지적하며 single-shot pruning을 제안! 1. 기존 pruning 기법의 한계 Dataset $\mathcal{D}=\{(\mathbf{x}_i, \mathbf{y}i)\}{i=1}^{n}$가 주어지고, 목표로 하는 sparsity level이 $k$인 NN Pruning을 constrained optimization 문제로 표현할 수 있다. $$\begin{aligned} \min_{\mathbf{c}, \mathbf{w}}L( \mathbf{w};\mathcal{D})&=\min \frac{1}{n}\sum_{i=1}^{n}\mathcal{l}(\math..

Attention Is All You Need

본 논문에서 제안된 Transformer는 seq2seq의 구조인 인코더 디코더를 따르면서도 attention만으로 구현된 모델입니다. 기존 모델들은 정확도와 병렬화에 대해 문제가 존재했습니다. 1. 정확도 Sequential Model의 LSTM이나 GRU의 경우 번역 업무를 처리하기 위해 문장 전체를 하나의 벡터(Context vector)로 나타낼 필요가 있습니다. 이 경우 길이가 긴 문장의 경우 정해진 크기의 fixed vector로 줄어들기 때문에 정보 손실이 일어나게 되며 구조 상 뒤쪽의 정보가 아닌 앞쪽의 정보 대부분이 소실되어 문맥을 고려하지 못하는 경우가 많습니다. 2. 병렬화 번역 모델에서는 모두 이전의 셀에 대한 정보를 기반으로 현재의 셀을 업데이트하여 시간에 의존한 학습이 진행됩니다..

Sequence to Sequence Learningwith Neural Networks

기존 Machine Translation 분야는 문장이 아닌 단어 단위의 번역에 그쳤기에 문장 구조나 문법을 고려하는 번역이 아닙니다. 고정된 길이의 input만 받는 DNN 역시 문장 길이에 맞게 유연하게 대처하지 못합니다. RNN 모델과 Seq2Seq와 같은 모델들은 단어와 이웃하는 단어 간의 관계를 고려하며 번역이 가능합니다. Sequence: 순서가 있는 data, Text에는 문맥이라는 순서가 있고 시계열 데이터에는 시간이라는 순서가 있습니다. 마찬가지로 영상, 음성 등 전부 순서와 함께 흘러가는 데이터입니다. Sequence model: Sequence data를 다루는 모델, 순서가 있는 Sequence data에서 특징들을 추출하여 여러 가지 문제를 해결하고 예측합니다. 대표적인 모델로는 ..

Efficient Estimation Of Word Representations In Vector Space

본 논문에서 다루는 내용은 다음과 같습니다. 1. 많은 양의 데이터에서 퀄리티 높은 단어 벡터를 학습 2. 이전 모델 NNLM, RNNLM 소개 3. 새로운 모델 구조 CBOW, Skip-gram 제안 4. 모델 훈련 시간의 최소화, 정확도의 최대화 Introdution Word2Vec 이전의 자연어 처리는 One-Hot encoding으로 표현하고 싶은 단어의 인덱스에 1을 부여하고 다른 인덱스에 0을 부여하는 형식으로 진행되었습니다. 하지만 이 방법은 단어 개수가 늘어나면 벡터 차원이 늘어난다는 점, sparse matrix, 단어 간 유사성을 계산할 수 없다는 한계들이 존재했습니다. 여기서 Distributed Representation(분산 표현)이란 방법을 사용할 경우 단어의 의미를 여러 차원에..

[논문 리뷰] Fast and Accurate Single-Image Depth Estimation on Mobile Devices, Mobile AI 2021 Challenge: Report

Depth estimation은 모바일 환경에서 필요한 컴퓨터 비전 기술 중 하나이지만 현재 제안된 솔루션들은 계산 비용이 많이 들어 장치에서의 추론 작업이 힘들었습니다. 본 논문은 이러한 문제점을 해결하기 위해서 여러 가지 방법들을 적용해보고 그 결과를 정리한 내용입니다. 1. Environments Raspberri pi 4 (Broadcom BMC2711, Cortex-A72, 1.5 GHz) Raspberry Pi OS (linux) TensorFlow Lite 2.5.0 Linux build 2. Dataset RGB-16bit-depth image pairs was collected using ZED stereo camera average depth estimation error of less..

[논문 리뷰]The Lottery Ticket Hypothesis, ICLR 2019

기존 학계의 문제는 pruning을 하고 나서 학습을 random weight로 initialization 하면 pruning 되기 전 모델에 비해서 accuracy가 낮게 나오는 문제가 존재한다는 것입니다. - 그리고 transfer learning으로는 잘 변동이 안 생김 parameter 수가 작아져서 small capacity를 가지고 있기 때문, parameter 수가 많은 기존 network보다 학습시키기 어렵다는 주장이 유력한 가설! parameter 수가 작아져서 변화할 수 있는 공간이 적어져 표현력이 떨어짐, 기존 network 보다 더 어려워짐 본 논문에서는 pruning된 network를 보다 더 잘 학습시키기 위한 방법을 제안합니다. 3번까지는 기존 pruning 과정과 동일합니다...

[논문 리뷰] Distilling the Knowledge in a Neural Network (NIPS 2014 Workshop)

이 논문은 처음으로 knowledge distillation이라는 개념을 제시한 논문입니다. pruning과 비슷하게 이전에 있던 모델을 사용할 수 있다는 점에서 활용도가 높을 거 같아 관심을 가지게 됐습니다. 2021년 10월 25일 기준으로 7705회 인용됐습니다. 모델을 만들 때 성능을 쉽게 올리는 방법 중 하나는 Ensemble입니다. 각각의 모델들이 test error가 비슷하다고 하더라도 ensemble 한 결과는 더 낮은 test error를 보여줍니다. 하지만 ensemble 모델을 사용하기에는 너무 많은 컴퓨터 비용이 필요하기 때문에 일반적인 상황에서는 사용하기가 쉽지 않습니다. 그래서 본 논문에서는 ensemble을 통해 얻을 수 있는 generalization 능력을 더 작은 규모의 ..

[논문 리뷰] GhostNet: More Features from Cheap Operations, CVPR 2020

저번에 발표된 논문은 GhostNet: More Features from Cheap Operations, CVPR 2020 입니다. 이 논문에서는 Feature Map 중복(Redundancy)에 대해서 조금 더 간단하게 만들기 위한 방법을 제안합니다. 중복된 피쳐들은 성공적인 딥러닝 모델의 특징입니다. Ghost Feature(중복 피쳐)를 Linear transformation을 통해서 만드는 방법을 사용하여 생성하게 되는데 이 방법은 기존 방법(Convolution)에 비해 연산량이 적습니다. Ghost Feature은 유사한 두 이미지가 유령사진처럼 보인다고 해서 Ghost라고 부릅니다. 이런 이미지들을 비용이 비싼 Convolution 연산으로 구하는 것이 아니라 Linear Transfer을 ..

[논문 리뷰]AdderNet: Do We Really Need Multiplications in Deep Learning?, CVPR 2020

이번에 스터디에서 발표된 논문은 AdderNetwork입니다. 이 논문을 읽으면서 의문점이 많이 들어서 따로 자료들을 더 찾아봐야겠습니다. Conv Layer에서 기존에 사용하는 multiplications 연산은 상당한 량의 GPU 메모리와 전력을 소비합니다. 이 때문에 다른 휴대용 기기에 사용하기가 어려워 MobileNet과 같이 경량화된 모델이 제안됐지만 여전히 많은 연산량이 필요합니다. 본 논문에서는 Adder을 활용하여 연산량을 줄이는 방법을 사용합니다. 기존에는 BNN 등 다양한 이진화 과정을 거쳐 경량화했지만 이 방법은 학습 속도 저하와 성능 손실이 발생하는 문제들이 있었습니다. 제시된 방법은 다음과 같습니다. 1. Convolution 연산은 filter와 입력의 유사도를 측정하는 방법으로..

[논문 리뷰] 경량화 기술 동향

- 경량화 기술 동향: https://ettrends.etri.re.kr/ettrends/176/0905176005/34-2_40-50.pdf 최근 들어 여러 분야에서 딥러닝 모델이 만들어졌지만 경량 디바이스, 모바일 디바이스 등과 같은 컴퓨터 자원이 부족한 기기들에서는 직접 학습이나 추론을 진행하기에는 아직 부족한 점이 많습니다. 그래서 현재 경량 딥러닝 연구가 활발하게 진행 중입니다. 경량화를 통한 이점은 크게 본다면 다음과 같습니다. 1. 지연시간 감소 2. 민감한 개인 정보 보호 (?) 3. 네트워크 트래픽 감소 등 경량화 연구에는 알고리즘 자체를 적은 연산과 효율적인 구조로 설계하는 경량 딥러닝 연구와 만들어진 모델의 파라미터들을 줄여주는 모델 압축 등의 기법이 적용된 알고리즘 경량화 기술이 존..

반응형