self Supervised pre-Training model Transformer의 Self-Attention block은 범용적인 Decoder, Encoder로써 NLP뿐만 아니라 다양한 곳에 활용되고 있다. 기존 Transformer는 6개의 block을 stack해서 encoder, decoder로 사용했지만 이후 나오는것들은 더 ...
Seq2Seq, 문장 번역 평가 방법
Seq2Seq encoder, decoder구조로 이루어진 모델이다. RNN기반의 모델 구조 이기 때문에 hidden state의 dim이 고정된 상태로 계속해서 정보를 누적한다. 길이가 짧은 때는 괜찮지만 길어지게 되면 앞부분의 정보를 잃을 수 있다. decoder에서는 SoS가 들어오면 encoder의 최종 output을 고려해 첫 ...
GRU, LSTM
one to one Standard NN one to many image Captioning 이렇게 입력이 하나일 경우 다른 time의 입력값으로는 처음 입력값과 같은 크기지만 모든 값이 0으로 채워진 텐서를 준다. many to one sentiment classification ...
NLP와 전처리
Bag-of-Word 단어의 순서는 고려하지 않고, 출현 빈도에 집중하는 텍스트 데이터 수치화 표현 방법이다. 각 단어별로 고유한 index를 부여하고, 각 index위치에 해당 단어가 등장한 횟수를 기록한 벡터를 만든다. Sentence : “I really really like this movie” I : ...
Transformer
RNN처럼 sequence를 처리하지만 하나에 하나의 토큰을 처리하는것이 아닌 한번에 처리한다. attention을 사용하는 방법론 이면서 학습과 병렬화를 쉽게해 속도를 높혔다. Encoder, Decoder encoding component (stack of encoders) Unmasked : 인코딩 과정...
Generative 모델
Generative 모델 Generative모델은 데이터를 학습해 데이터의 분포를 따르는 유사한 데이터를 생성하는 모델이다. Generative 모델은 결합 확률 분포를 학습해 실제 클래스들의 분포를 모델링한다. 이러한 결합확률 분포 p(x,y)를 알게되면 가 주어졌을 때 가장 잘 맞는 x를 생성할 수 있다. 엄밀한 의미의 Generat...
RNN
RNN 시계열, 시퀀스(sequence) 데이터에 주로 적용되는 네트워크이다. Sequence Data 소리, 문자열, 주가 등의 데이터를 시퀀스 데이터로 분류한다. 시계열(time series)데이터는 시간 순서에 따라 나열된 데이터로 시퀀스 데이터에 속한다. 스퀀스 데이터는 독립동등분포(i.i.d) 가정을 잘 위배하기 때문에 ...
CNN
CNN(Convolutional Neural Networks) 기존 이미지를 학습할 때는 이미지의 형상을 고려하지 않고 raw data를 직접 처리하여 많은 학습 데이터가 필요하고, 학습시간이 많이 필요하였다. CNN은 이미지 공간정보를 유지한채 학습을 하는 모델이다. Convolution Layer와 Pooling Layer를 여러 겹 쌓...
딥러닝 키워드
Keyword Generalization 일반화란 학습데이터와 input data가 달라져도 성능 차이가 크게 나지 않도록 하는것을 말한다. Generalization performance가 좋다는 것은 Train Error와 Test Error 차이가 적다는것을 말한다. Under-fitting vs. over-fitting 모델이 너무 간...
딥러닝 Basic
Deep Learning Basic loss function pytorch numpy구조를 가지는 Tensor객체로 Array를 표현한다. 자동미분을 지원하여 DL연산을 지원한다. 다양한 형태의 DL을 지원하는 함수와 모델을 지원한다. 실습 import 및 device설정 (GPU사용) import numpy...