분류 전체보기 130

18. 대각화 (Diagonalization)

대각화란 주어진 행렬을 대각행렬로 만드는 것을 말합니다. 기본적으로 square matrix를 사용합니다. $D = V^{-1}AV$ A라는 matrix에 V와 V의 역행렬을 곱해주어 대각 성분만 남게 만듭니다. 이 방법은 항상 가능한 것이 아니라 상황에 따라 달라집니다. 위에 식을 만족시키는 V를 찾을 수 있는 경우에만 대각화가 가능합니다. V의 shape은 A의 shape과 동일합니다. $VD = AV$란 식을 얻었습니다. A가 (3, 3) 행렬이라고 할 때 V도 (3, 3) 행렬이 됩니다. $AV_1 = \lambda V_1...$ 여기서 $V$를 Eigenvector $\lambda$를 Eigenvalue로 생각해보면 이전에 배웠던 Eigenvalue, Eigenvector가 만족해야 하는 식과 ..

반 고흐 전시전 마무리

23일 가짜 연구소 3rd PseudoCon을 마지막으로 반 고흐 전시전 스터디가 마무리 됐습니다. 오후 7시부터 시작해서 약 3시간가량 진행이 됐는데 다양한 능력자 분들이 자기가 맡은 스터디 주제를 발표해주셨습니다. 저는 여기서 XAI 부분에 관심이 가게 되어 나중에 시간이 나게 된다면 관련 내용을 한번 공부해 봐야겠습니다. 아래 사진은 반 고흐 전시전 스터디 그룹에서 제작한 포스터입니다. 처음에는 아무것도 모르고 GAN이란 주제에 단순히 관심이 가서 참가하게 됬는데 관련 논문들을 읽어도 보고, 캐글에도 참여하여 베이스 라인 수정을 통해 좋은 점수를 내는 경험도 할 수 있었습니다. (해당 competition은 score가 낮아야 좋은 점수입니다.) - 저는 style data가 적어 overfitti..

[논문 리뷰]The Lottery Ticket Hypothesis, ICLR 2019

기존 학계의 문제는 pruning을 하고 나서 학습을 random weight로 initialization 하면 pruning 되기 전 모델에 비해서 accuracy가 낮게 나오는 문제가 존재한다는 것입니다. - 그리고 transfer learning으로는 잘 변동이 안 생김 parameter 수가 작아져서 small capacity를 가지고 있기 때문, parameter 수가 많은 기존 network보다 학습시키기 어렵다는 주장이 유력한 가설! parameter 수가 작아져서 변화할 수 있는 공간이 적어져 표현력이 떨어짐, 기존 network 보다 더 어려워짐 본 논문에서는 pruning된 network를 보다 더 잘 학습시키기 위한 방법을 제안합니다. 3번까지는 기존 pruning 과정과 동일합니다...

17. 특성 방정식(Characteristic Equation)

이번 강의에서는 지난 시간에 배운 새로운 벡터 공간의 개념을 바탕으로 고유벡터와 고유값을 더 이해하고 특성 방정식(Characteristic Equation)을 통해 이들을 구하는 법을 알아봅시다. Eigenvector와 Eigenvalue를 만족시키는 기본적인 식이 $(A - \lambda I)x = 0$ 입니다. $\lambda$ 정해졌다면 위에 식에 대한 Null space를 찾으면 그것이 $x$입니다. 다음과 같이 $A - \lambda I$를 뺏는데 나온 행렬의 차원을 보면 Row 차원의 벡터들이 중복되어 있어서 벡터들로 만들 수 있는 것은 선 하나입니다. 여기서 Eigenvalue는 3으로 사용했습니다. 3을 사용해서 Lineary independent하게 만들어 줬습니다. 여기서 Row 벡터..

16. 영공간과 직교여공간

Null space는 $Ax = 0$을 만족시키는 $x$들의 집합을 Null space of A라고 합니다. - Rectangular matrix에도 적용이 가능합니다. $ \left [ \begin{matrix} 1 & 2 \\ 3 & 4 \\ 5 & 6 \end{matrix} \right] \left [ \begin{matrix} x \\ y \end{matrix} \right] = \left [ \begin{matrix} 0 \\ 0 \\ 0 \end{matrix} \right]$ 다음과 같이 행렬 연산을 했을 때 0이 나오게하는 column vector를 찾아야 합니다. (행렬에 대해 수직인 x, y) 다음과 같이 $a^T$들과 내적했을 때 전부 0이 나오는 수직인 x를 찾고 모아둔 것이 Null..

15. 고유벡터와 고유값

고유값 분해는 주성분 분석(PCA: Principal Component Analysis)에서 자주 쓰이는 개념입니다. 이번 강의에서 고유값 분해를 배우기 위한 첫 단계인 고유 벡터와 고유값의 개념에 대해 배워보도록 하겠습니다. identity composition - 주어진 행렬에 대해 굉장히 중요한 정보를 추출하는 과정입니다. - Square matrix의 Eigenvector가 non - zero 적어도 하나의 원소가 아닌 벡터일 때 다음 식을 만족해야 합니다. $Ax = \lambda x$ 다음과 같이$3 \times 3$ square matrix와 3차원 벡터 x의 곱과 스칼라와 x 벡터의 곱이 같아야 합니다. 이러한 조건을 만족시키는 벡터 x를 A 행렬의 Eigenvector라고 합니다. $\l..

14. Gram - Schmidt Orthogonalization

이번 강의에서는 임의의 행렬을 직교 기저(Orthogonal basis)를 가지는 행렬로 변환하는 그람 - 슈미트 직교화에 대해 배워보겠습니다. feature를 수직으로 바꿔주는 방법입니다. Gram - Schmidt Orthogonalization $ \left [ \begin{matrix} 3 \\ 6 \\ 0 \end{matrix} \right] \left [ \begin{matrix} 1 \\ 2 \\ 2 \end{matrix} \right] $ 두 벡터가 존재하는데 이 벡터의 내적은 $ 3 + 12 + 0 = 15$ 내적이 0이 아니니 두 벡터는 수직이 아닌 상태입니다. 그럼 그람 - 슈미트 직교화를 통해서 두 벡터를 수직으로 바꿔주겠습니다. 우선 두 벡터를 길이가 1인 벡터로 만듭니다. - v..

13. Orthogonal Projection 2

이전에 이어서 Orthogonal Projection에 대한 설명이 이어집니다. 마지막을 보면 otrhonormal한 U를 $UU^Tb$로 표기를 바꿔줬습니다. 즉 $b$를 $u_1, u_2$라는 orthonormal vector로 만들어지는 span 평면에 orthogonal projection 시킨 값을 구할 수 있는 또 다른 형태의 선형변환인 것입니다. 만약 $u_1, u_2$가 orthonormal 하다면 $y = \frac {y \dot u_1}{u_1 \cdot u_1} u_1 + \frac {y \dot u_2}{u_2 \cdot u_2} u_2$에서 밑항이 사라지게 됩니다. (길이가 1) 여기서 y가 아닌 b를 넣어주게 되면 $(u^T_1 b)u_1$에서 $u_1$을 행 벡터로 바꾸고 b와..

12. Orthogonal Projection 1

Orthogonal Projection은 $Ax = b$에서 b를 만족시키는 x를 구하지 못했을 때 근사한 $\hat {x}$로 $\hat{b}$을 구하기 위해서 사용됩니다. 이것을 행렬 곱으로 표현한다면 다음과 같습니다. - $\hat{b} = f(b) = A \hat{x} = A(A^TA)^{-1} A^Tb$ 즉 $A(A^TA)^{-1} A^T$을 $b$에 곱해서 Orthogonal Projection의 위치를 알아내는 것입니다. 주어진 차원에 벡터가 존재하고 그 벡터끼리 내적을 했을 때 전부 0이 나오면 그것을 Orthogonal set이라고 합니다. 즉 얻어낸 벡터가 전부 수직이라는 것입니다. 비슷하게 Orthonormal set 도 존재하는데 이것은 Orthogonal set에서 한 가지 조건을..

11. 정규 방정식(Normal equation)

머신러닝에서 사용하는 gradient descent와 달리 normal equation은 최솟값을 직접 계산하는 방법입니다. $A^TAx = A^Tb$ $\hat{x} = (A^TA)^{-1}A^Tb$ 다음과 같이 역행렬이 존재한다면 가장 거리가 가까운 solution을 구할 수 있습니다. 여기서 x는 최단 거리의 수선의 발을 의미합니다. 그리고 x를 최단 거리의 벡터로 만들어주기 위해서 만족해야 할 식이 normal equation입니다. 정규 방정식도 일종의 선형 결합으로 우리가 방정식을 풀어서 x값을 구하게 된다면 그 값은 $x = arg \min \limits_{x} \| b-Ax \|$를 만족하게 됩니다. - 정확하게 $\|b - Ax\| = 0$으로 만들어주는 $x$값을 찾을 수 없으니 이 값..

반응형