논문 리뷰/여러가지 기법들 4

Attention Is All You Need

본 논문에서 제안된 Transformer는 seq2seq의 구조인 인코더 디코더를 따르면서도 attention만으로 구현된 모델입니다. 기존 모델들은 정확도와 병렬화에 대해 문제가 존재했습니다. 1. 정확도 Sequential Model의 LSTM이나 GRU의 경우 번역 업무를 처리하기 위해 문장 전체를 하나의 벡터(Context vector)로 나타낼 필요가 있습니다. 이 경우 길이가 긴 문장의 경우 정해진 크기의 fixed vector로 줄어들기 때문에 정보 손실이 일어나게 되며 구조 상 뒤쪽의 정보가 아닌 앞쪽의 정보 대부분이 소실되어 문맥을 고려하지 못하는 경우가 많습니다. 2. 병렬화 번역 모델에서는 모두 이전의 셀에 대한 정보를 기반으로 현재의 셀을 업데이트하여 시간에 의존한 학습이 진행됩니다..

Sequence to Sequence Learningwith Neural Networks

기존 Machine Translation 분야는 문장이 아닌 단어 단위의 번역에 그쳤기에 문장 구조나 문법을 고려하는 번역이 아닙니다. 고정된 길이의 input만 받는 DNN 역시 문장 길이에 맞게 유연하게 대처하지 못합니다. RNN 모델과 Seq2Seq와 같은 모델들은 단어와 이웃하는 단어 간의 관계를 고려하며 번역이 가능합니다. Sequence: 순서가 있는 data, Text에는 문맥이라는 순서가 있고 시계열 데이터에는 시간이라는 순서가 있습니다. 마찬가지로 영상, 음성 등 전부 순서와 함께 흘러가는 데이터입니다. Sequence model: Sequence data를 다루는 모델, 순서가 있는 Sequence data에서 특징들을 추출하여 여러 가지 문제를 해결하고 예측합니다. 대표적인 모델로는 ..

Efficient Estimation Of Word Representations In Vector Space

본 논문에서 다루는 내용은 다음과 같습니다. 1. 많은 양의 데이터에서 퀄리티 높은 단어 벡터를 학습 2. 이전 모델 NNLM, RNNLM 소개 3. 새로운 모델 구조 CBOW, Skip-gram 제안 4. 모델 훈련 시간의 최소화, 정확도의 최대화 Introdution Word2Vec 이전의 자연어 처리는 One-Hot encoding으로 표현하고 싶은 단어의 인덱스에 1을 부여하고 다른 인덱스에 0을 부여하는 형식으로 진행되었습니다. 하지만 이 방법은 단어 개수가 늘어나면 벡터 차원이 늘어난다는 점, sparse matrix, 단어 간 유사성을 계산할 수 없다는 한계들이 존재했습니다. 여기서 Distributed Representation(분산 표현)이란 방법을 사용할 경우 단어의 의미를 여러 차원에..

[논문 리뷰] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

- Normalization이란? 다음과 같이 각 차원의 분포가 일정하지 않을 때 큰 LR을 사용할 시 큰 폭으로 움직이게 되는데 이 때, y축은 값들이 오밀조밀하게 모여있어서 한번에 많은 값 변화가 생기게 됩니다. 이런 문제를 간격을 일정하게 만들어줘서 해결하는 것이 Normalization 입니다. 심층 신경망의 이전 레이어 파라미터 변경은 그 다음 레이어 입력의 distribution에 영향을 줍니다. 이 때문에 Learning rate 값을 크게 설정할 수 없고 파라미터 초기값 설정을 신중하게 해야합니다. 층이 깊어질 수록, non-linerarity 특성이 강해질 수록 문제점이 더 커지게 됩니다. 이 현상을 internal covariate shift 라고 합니다. Learning rate가 커..

반응형