분류 전체보기 130

[4주차] NIPS 2016 Tutorial: Generative Adversarial Networks: Ian Goodfellow

앞으로 3주동안에는 이안 굿펠로우의 GAN 튜토리얼을 요약하면서 스터디가 진행이 됩니다. 아래 내용은 이번 스터디에서 발표된 내용입니다. 1. 컴퓨터 비전 인식: 이미지 내에 존재하는 정보를 찾는 기술입니다. 생성: 특정 정보를 담는 이미지를 생성하는 기술입니다. 학습하는 방식에는 Supervised Learning과 Un-supervised Learning이 있습니다. 나눠지는 기준은 레이블의 유무, 그리고 어떠한 목적으로 학습이 진행되는지에 따라서 나눠지게 됩니다. Supervised Learning은 매핑할 함수를 학습하는 목적을 가지고 있고 Un-Supervised Learning은 주어진 데이터 속 숨겨진 패턴을 학습하는 목적을 가집니다. 생성모델 생성 모델은 학습 데이터 하나하나를 학습하는 것..

[논문 리뷰] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

- Normalization이란? 다음과 같이 각 차원의 분포가 일정하지 않을 때 큰 LR을 사용할 시 큰 폭으로 움직이게 되는데 이 때, y축은 값들이 오밀조밀하게 모여있어서 한번에 많은 값 변화가 생기게 됩니다. 이런 문제를 간격을 일정하게 만들어줘서 해결하는 것이 Normalization 입니다. 심층 신경망의 이전 레이어 파라미터 변경은 그 다음 레이어 입력의 distribution에 영향을 줍니다. 이 때문에 Learning rate 값을 크게 설정할 수 없고 파라미터 초기값 설정을 신중하게 해야합니다. 층이 깊어질 수록, non-linerarity 특성이 강해질 수록 문제점이 더 커지게 됩니다. 이 현상을 internal covariate shift 라고 합니다. Learning rate가 커..

[논문 리뷰]Rethinking the Value of Network Pruning, ICLR 2019

스터디에서 발표된 Rethinking the Value of Network Pruning을 정리하겠습니다. Pruning은 이미 학습되어 있는 모델에서 비교적 간편하게 성능을 증가시키는 방법 중 하나입니다. 간단하게 말하면 Network Pruning은 약한 연결을 가지치기 하듯 잘라내어 모델 크기를 줄이는 방식으로 경량화를 시킵니다. 일반적인 Pruning 과정은 다음의 3가지 스텝에 따라 진행됩니다. 무겁고 큰 모델을 학습시켜 정확도를 최대한 높입니다. 무겁고 큰 모델에서 중요하지 않은 가중치를 잘라냅니다. 작아진 모델의 정확도를 향상 시키기 위해 파인 튜닝을 합니다.(큰 모델의 가중치를 전달?) 이러한 과정을 진행하는 이유는 다음과 같습니다. 작은 모델에서 불필요한 가중치를 없애는 것보다 큰 모델에..

[3주차] TensorFlow Tutorial(Neural Style Transfer)

이번 주에는 Tensorflow에서 제공하는 Neural Style Transfer 튜토리얼을 통해서 모델을 만들어보고 content 정보와 style 정보를 사용하여 결과물을 출력해봤습니다. 공부한 내용은 깃허브에 정리해두었습니다. https://github.com/audrb1999/ML-DL-Study/blob/main/Tensorflow/%ED%8A%9C%ED%86%A0%EB%A6%AC%EC%96%BC/05.Neural_Style_Transfer.ipynb GitHub - audrb1999/ML-DL-Study: 스터디를 진행하면서 공부한 내용과 제가 따로 공부한 내용들을 정리하 스터디를 진행하면서 공부한 내용과 제가 따로 공부한 내용들을 정리하여 모아두는 곳입니다. Contribute to aud..

[논문 리뷰]EfficientNetV2: Smaller Models and Faster Training

모델 사이즈와 데이터 셋 사이즈가 증가함에 따라 학습의 효율성은 더 중요해집니다. GPT-3는 큰 모델과 많은 학습데이터로 few shot learning에서 좋은 성능을 보여주지만 학습하기 위해서는 몇 주의 훈련과 많은 TPU를 요구하기에 성능을 더 개선시키거나 retrain하기가 어렵다는 점에서 training efficiency의 중요성을 알 수 있습니다. 이 논문은 이전 EfficientNetV1에서 생겼던 문제점들을 해결하여 더 빠른 학습 속도와 더 좋은 파라미터 효율을 가진 모델 EfficientNetV2를 소개하고 있습니다. 그래프를 통해 다른 모델과 비교했을 때 EfficientNetV2가 5~11배 더 빠른 학습 속도와 더 좋은 파라미터 효율을 보여주는 것을 알 수 있습니다. 다른 모델들..

1. 선형대수의 기초

본 내용은 edwith에서 인공지능을 위한 선형대수 내용 통해 작성되었습니다. 선형대수의 기본적 요소 Scalar 하나의 숫자 Vector 순서가 정해진 array 순서가 정해지지 않은 array는 set Matrix 행렬, 기본적으로 행렬은 2-dimensional array를 뜻합니다. Matrix의 사이즈는 = $row \times column$Row vector의 shape은 (1, n), Coulmn vector의 shape은 (n, 1)의 형태입니다. (Column은 기둥이라는 의미를 가집니다, 세로로 서있는 기둥을 생각하면 조금 더 구분하기 쉬워집니다.) Row vector을 Transpose 하면 Column vector가 나옵니다. Transpose는 아래 사진과 대각선을 중심으로 성분들..

[2주차] Image Style Transfer Using Convolutional Neural Networks 리뷰

2주차에는 Style Transfer 논문을 리뷰했습니다. CNN 기반의 분류모델 위주로 공부하다 보니 생성모델 논문을 처음 접해보게 됬는데요, 목적이 다른 모델들이기에 기초부터 완전히 다를 줄 알았는데 Style Transfer도 CNN 필터를 기반으로 설계 되어있어 신기했습니다. 논문을 가볍게 요약해보자면 이전까지의 방식들은 low-level feature들만 사용이 가능하여, 이미지를 변형시켰을 때 결과 이미지에서 high-level feature들에는 변화가 없었다. 이 Style Transfer는 CNN 필터를 사용하여 얻은 high-level feature들을 사용할 것이다. 다음과 같이 content image(풍경사진)을 style image(그림)을 사용하여 style image의 화풍을..

[1주차] TensorFlow Tutorial

1주차에서는 GAN 공부를 하기 앞서 딥러닝 기초와 CNN 그리고 TensorFlow, Keras 사용법에 대한 발표가 진행됬습니다. 진행자분께서는 "모두를 위한 딥러닝", "밑바닥부터 시작하는 딥러닝" 내용을 활용하여 발표를 진행하셨습니다. 1. 퍼셉트론(Perceptron) 신경망을 구성하는 기본 단위로 입력신호에 가중치를 곱해 더한 값이 Threthord 값을 넘으면 1, 넘지 못하면 0을 다음 퍼셉트론으로 넘겨줍니다. 여러 층의 퍼셉트론을 서로 연결시키고 복잡하게 조합하여 주어진 입력 값에 대한 판단을 하게 하는 것, 그것이 바로 신경망의 기본 구조입니다. 신경망을 이루는 가장 중요한 기본 단위는 퍼셉트론(perceptron)입니다. 퍼셉트론은 입력 값과 활성화 함수를 사용해 출력 값을 다음으로 ..

[논문 리뷰]EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

이번 경량화 스터디를 준비하면서 첫 번째로 발표하게 된 논문입니다. 논문의 부제로는 "Rethinking Model Scaling for Convolutional Neural Networks" 간단하게 말하면 "CNN 모델 확장에 대해 다시 생각해보자" 입니다. 제가 생각하기에는 이 논문을 간단히 요약해보자면 다음과 같습니다. CNN의 성능을 높이기 위해 모델 크기를 증가시켰지만(정확도만 고려해서), 이 방법은 하드웨어적 한계가 존재한다. 우리는 효율성과 정확도 둘 다 고려할 수 있는 방법을 구상했고, 그 방법은 depth, width, image resolution을 전부 사용하여 모델을 키우는 방식이다. 이전까지 방식에서는 depth, width, image resolution 중에서 하나만을 사용하..

반 고흐 전시전이란?

방학동안 스펙을 쌓고 싶어서 여러 활동을 지원을 했습니다. "반고흐 전시전: 2021년 한국의 기록"은 가짜 연구소 프로젝트 활동중 하나로 캐글에서 진행되는 경연에 참가하는 활동입니다. 운이 좋게 해당 활동에 참여할 수 있게 됬고 매주 월요일 8시마다 주어진 과제를 공부하고 발표하는 형식으로 진행이 됩니다. 다음은 주차별 목표와 학습 내용입니다! [1주차] 7월 2째주 오리엔테이션 (colab, tensorflow & keras) TensorFlow Tutorial(starter, basic image classification, overfit & underfit, CNN, image classification) [2주차] 7월 3째주 A Neural Algorithm of Artistic Style (..

반응형