본문 바로가기
728x90

전체 글121

Disney FVAE (관람객 표정 분석 AI) https://studios.disneyresearch.com/wp-content/uploads/2019/04/FactorizedVariationalAutoencodersfor-ModelingAudienceReactionstoMovie-1.pdf Dataset 400 seat theatre that hosted multiple viewings of multiple movies over a twelve month period Modeling stage 1. TF MF (Matrix Factorization)은 원래 linear layer. 하지만 이를 VAE (Variational Autoencoder)를 사용해 non-linear로 바꿔 latent value를 갖게 했음. 행렬분해 variable de.. 2023. 5. 22.
Aiffelthon의 기록 주어진 시간은 딱 4주. 지금까지의 결과는 없다. 그 시간동안 어떤 것을 바로 잡았어야 했는지 잊기 전에 기록해본다. 1. 대략적인 타임라인에 너무 벗어났다. 2. 꿈과 현실간의 조율이 어려웠다. 3. 주어진 자원을 잘 파악하지 못했다. 4. 주어진 자원을 잘 활용하지 못했다. 5. 실력이 부족했다. 1. 대략적인 타임라인에서 너무 벗어났다. 처음 시작할때만 하더라도 내 머릿속에 어느정도의 타임라인이 있었다. 1주차에는 아이디어 회의 및 리서치, 역할분담을 끝내고, 2주차에는 대략적인 모델 아키텍쳐를 구성하고, 데이터셋을 만들 것. 3주차에는 모델 베이스라인 구축 및 fine-tuning, 4주차에는 결과 도출 및 수정할 시간을 그렸다. 하지만 그러지 못했다. 우리는 3주차를 훨씬 넘어 대략적인 모델 아.. 2023. 5. 6.
자주 사용했던 리눅스 명령어 기록하기 제발좀 까먹지마라 나님아 - pwd, cd, ls - conda create -n test1020 python=3.9 anaconda : test1020이라는 env 만들면서 python 3.9 깔고, 해당버전이랑 호환안되는 셋트상품도 anaconda 넣으면 다같이 깔아줌. - conda activate test1020 ( deactivate) - conda remove env test1020 - conda install -c conda-forge pytorch torchaudio (conda-forge = 해당호환셋트상품) - sudo apt-get install jupyter-notebook : sudo 관리자 권한이고, apt-get 할때도, apt 할때도 있음 - jupyter notebook :.. 2023. 4. 29.
ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models (2023.2.9) https://arxiv.org/pdf/2302.04456.pdf Meaning diffusion으로 waveform을 생성하는 최초의 음악생성모델 (참고한 text-to-speech는 speech 생성함) 투표된 인기댓글을 활용함으로써 free-form text 의 데이터 부족을 해소. 두 가지 conditional model 비교를 통해 end-to-end의 성능을 증명 관련성이 높고, 고품질의 음악을 생성할 수 있음을 보여줌. Dataset 인기댓글 : 수준이 높고, 악기, 장르 및 감정에 대한 음악 정보가 많았음. 그래서 (인기댓글 - 음악) 병렬데이터 수집 Model U-Net for diffusion. 14개 convolutional block layers 로 down - up 노이즈를 추가하.. 2023. 4. 15.
Diffusion 2 (Stable diffusion) 참고강의 https://www.youtube.com/watch?v=Z8WWriIh1PU 강의노트 기존 Diffusion 과 Stable Diffusion의 차이 1. 노이즈 추가방법이 다름 Diffusion : 픽셀 단위로 가우시안 노이즈 추가 Stable D : 레이어 단위로 가우시안 노이즈 추가 ; 기존 D보다 더 복잡한 이미지 생성 가능, 안정적, diversity향상 2. 다른 모델과의 연동 Stable D는 다른 모델과 콜라보가 가능 (e.g. AE, CLIP 등) S.D + AE : 안정적이고 고화질의 이미지 생성 목표 S.D + CLIP : image, text를 결합하여 생성 목표콜라보할 두 가지 대표모델 학습순서 AE 학습하고 >> CLIP 학습하고 >> U-net 학습하고 >> Fine.. 2023. 4. 12.
Diffusion 1 (DDPM, DDIM, Guided Diffusion, DDGAN) 참고강의 https://www.youtube.com/watch?v=jaPPALsUZo8 https://www.youtube.com/watch?v=jaPPALsUZo8 강의노트 원본 -> 노이즈 로 갔다가 다시 노이즈 -> 원본으로 돌아오면서, 디노이징하는 법을 학습하는 것. (앱실론학습) 디노이징 하는 법을 다 익힌 모델은 노이즈에서 정규분포에 따른 latent value로 새로운 이미지를 생성할 수 있음. Forward process : 이미지-> 가우시안노이즈 (정규분포, N(m,시그마제곱)= N(0,1))로 만드는 과정 X0 ----------> Xt-1 ------> Xt Xt = a * Xt-1 + b*noise Xt는 그전시점의 Xt-1에 (weight는 아니고 상수) 곱한것 + bias에 노.. 2023. 4. 3.
AE, DAE, VAE AE (AutoEncoder) 비지도 학습 유형, 인코더와 디코더로 이루어져 있고, 인코더는 차원축소를, 디코더는 생성모델의 역할을 한다. 특징 Unsupervised learning : 학습시 라벨이 없는 unsupervised 방식으로 수행됨. Representation learning : 학습시 Loss는 Negative Maximum Likelihood(nml)로 해석. Dimensionality reduction :학습된 오토인코더의 인코더는 차원 축소의 역할을 하고 Generative model learning : 학습된 오토인코더의 디코더는 생성 역할을 함. 차원 축소를 해야 하는 이유는, 차원이 복잡하면 파라미터가 많아져서 오버피팅이 나게 되고, 복잡도가 떨어지기 때문이다. 차원 축소를 통.. 2023. 3. 31.
Chat GPT-4 에게 어려운 질문을 하면? 오늘 도덕적인 부분에 있어 깊게 깊게 이야기를 나눴더니,, 2번 뜨고 이상하다 싶어 캡쳐를 해놓고는, 계속 더 해봤더니 한 번 더 떴다. 아주 대답하기 곤란한 윤리적인 질문을 하면 이런 메세지가 뜨는건가? 아니면 4로 업그레이드 되면서 명시적 지표를 체크하게 하는 기능이 생긴걸까? 구글링해보니 정보가 많이 없다. 흔한 경우는 아닌 것 같다. GPT에게 왜 나한테 이런 메세지를 대답하냐고 물었더니, 영어로 물었음에도 대답하는 커서가 엄청 오랫동안 깜빡깜빡한다. 이런 메세지가 뜨기 전에도 커서가 오래 깜빡이는 공통점이 있긴 했다. 그리고는 대답이 이렇다. As an AI language model, I sometimes ask for feedback on my responses to improve my pe.. 2023. 3. 24.
SCARF) SELF-SUPERVISED CONTRASTIVE LEARNINGUSING RANDOM FEATURE CORRUPTION (2022.03) Keyword Paper SCARF: SELF-SUPERVISED CONTRASTIVE LEARNING USING RANDOM FEATURE CORRUPTION Dara Bahri / Google / 2022.05 https://arxiv.org/pdf/2106.15147.pdf (Github address) Abstract 기존의 연구들은 괄목할만한 성과가 있었음에도 불구하고 (e.g. autoencoder), domain의 바운더리에서 벗어나질 못했다. 실제 세상에서 tabular 한 데이터에도 도메인 상관없이 범용적으로 쓸 수 있는 모델이 없었다. SCARF는 입력 데이터의 일부 특징을 무작위로 선택하여 해당 특징들의 확률 분포에서 샘플링한 값으로 대체하여 입력 데이터의 뷰를 생성하는 방법 실제 7.. 2023. 3. 24.
수렴되지 않는 이유.. Hyperparameter 튜닝: 모델의 학습이 잘 되지 않는 경우, 먼저 Hyperparameter를 조정해보는 것이 좋습니다. 예를 들어, 학습률, 배치 크기, 최적화 알고리즘 등을 변경하여 성능이 개선되는지 확인해볼 수 있습니다. 또한, Contrastive Learning에서는 negative sample의 개수와 temperature parameter도 중요한 hyperparameter입니다. 이러한 hyperparameter를 변경하여 모델의 학습이 개선되는지 확인해보는 것이 좋습니다. Data Augmentation 적용: Contrastive Learning에서 Data Augmentation은 중요한 역할을 합니다. 이는 모델이 다양한 변형된 입력 데이터를 통해 더욱 강건하게 학습할 수 .. 2023. 3. 23.
CLEP) Exploiting Negative Preference in Content-based MusicRecommendation with Contrastive Learning (2022.07) Keyword Paper Exploiting Negative Preference in Content-based MusicRecommendation with Contrastive Learning Minju Park/SNU/2022.07 https://arxiv.org/pdf/2207.13909.pdf Points 추천은 좋아하는 것을 제시하는 것보다 싫어하는 것을 제시하지 않는 것이 더 중요하다. 즉, recall이 아니라 False Positive Rate가 더 중요하다. CLEP-N가 FPR 부문에서 우수하다. 여기서는 추천까지 3단계를 나누어서 설명했고, 이 중 CLEP에 비중을 두고 있다. 세 개의 임베딩으로 거리와 마진을 구해낸다. Feature Exracting SimCLR :performs c.. 2023. 3. 22.
BERT 2023. 3. 22.
CLMR) Contrastive Learning of Musical Representations (2021.03) Keyword Paper Contrastive Learning of Musical Representations Janne Spijkervet / Univ. of Amsterdam / 2021.03 https://arxiv.org/pdf/2103.09410.pdf https://github.com/Spijkervet/CLMR Points Self-supervised Wav파일을 SimCLR에 적용시킴. Used dataset MagnaTagATune Million Song Dataset. Model CLMR증강 무작위로 잘라서 : Randomly cropping a segment from an audio clip. 속도나 피치를 뒤틀어 증강하고 : Applying random speed and pitch .. 2023. 3. 16.
NNCLR) Nearest-Neighbor Contrastive Learning of Visual Representations (InfoNCE / 2021.10) Keyword NNCLR InfoNCE Paper With a Little Help from My Friends: Nearest-Neighbor Contrastive Learning of Visual Representations Debidatta Dwibedi / Google / 2021.10 https://arxiv.org/pdf/2104.14548.pdf https://github.com/MalteEbner/NNCLR Points Self-supervised learning algorithm NNCLR(NearestNeighbor Contrastive Learning of visual Representations) 을 제시함 같은 데이터에서 추출한 점을 positive라고 하는 것이 아니라, 이에 근.. 2023. 3. 15.
Triplet Loss (FaceNet / 2015.03) Triplet Loss Paper FaceNet: A Unified Embedding for Face Recognition and Clustering Florian Schroff / Google / 2015.03 https://arxiv.org/pdf/1503.03832.pdf https://github.com/davidsandberg/facenet Points Unified system으로 using embeddings generated by the same network architecture에서 can perform multiple tasks할 수 있게 되었음. 일타삼피 (세가지 기능). 상호작용을 단순화할 수 있고 효율적임. 학습에 triplet loss를 사용하여 fast convergence .. 2023. 3. 15.
Transformer 4 - GPT / BERT / 그 외 파생모델들 GPT(Generative Pre-trained Transformer) 언어모델(Language Model) 마지막 단어를 생성해내는 것을 잘해서 문장 생성에 뛰어남 단방향 attention을 사용 Transformer의 Decoder를 사용 BERT(Bidirectional Encoder Representations from Transformers) 마스크 언어모델(Masked Language Model) 문장 중간의 빈칸에 들어갈 단어를 잘찾아서 문장의 의미를 추출하는데 뛰어남 양방향 attention을 사용 Transformer의 Encoder를 사용 https://ratsgo.github.io/nlpbook/docs/language_model/bert_gpt/#gpt BERT & GPT prati.. 2023. 3. 14.
Transformer 3 - Residential Add / Normalization Residual Connection 2015 ResNet에서 소개된 잔차연결을 적용함. ResNet 잠깐 알아보기 Q9. 상식적으로 56개의 레이어를 갖는 네트워크는 20개의 레이어를 갖는 네트워크보다 성능이 좋아야 합니다. 하지만 그렇지 않았죠! 이유가 무엇인가요? >>네트워크가 깊어질 수록 Optimize(Train)하는 것이 어렵기 때문에, 얕은 네트워크가 더 좋은 성능을 보이게 된다. Q10. Residual Block은 굉장히 간단한 수식으로 표현이 가능합니다. 수식을 적어보세요. >>y = f(x) + x https://itrepo.tistory.com/36 (7) ResNet (Residual Connection) ResNet (2015)¶ ResNet은 2015년도 ILSVRC 에서 우승을.. 2023. 3. 14.
Transformer 2 - Multi Head Attention / Scaled Dot-Product Attention / Masking / Position-wise Feed Forward Network / Query, Key, Value 잠깐! 잊어버리니깐, 다시 한 번 더.. 트랜스포머 모델이란? Encoder는 input sequence를 continuous한 representation으로 바꾸고, Decoder는 이 representation을 output sequence로 바꾼다. 최종 Output은 Probability가 나옴! 먼저 0. Inputs을 embedding 후 positional encoding 하고 1. Encoder 돌리고 x 6번 Multi-Head Attention 잔차 Add + Normalization ---------------- FFW layer 잔차 Add + Normalization 2. Decoder 돌리고 x 6번 Masked - Multi-Head Attention (현재 위치보다 더 뒤에 .. 2023. 3. 14.
Contrastive Loss (similarity metric / face verification / 2005.06) Contrastive Loss Paper Learning a similarity metric discriminatively, with application to face verification Sumit Chopra (2005.06 / NYU) PDF / Github 없음 Points Recognition, Verification 문제에 method for training a similarity metric from data를 제시함. similar and dissimilar한 포인트 두 개로 계산한 loss라고 하여 contrastive loss라는 말이 처음 유래함. L1 norm을 사용하여 semantic distance를 측정하고, input patterns into a target space 함.. 2023. 3. 13.
유사도 Similarity / 거리 Distance 유클리드 거리(Euclidean distance): 두 점 / 직선 거리 맨해튼 거리(Manhattan distance): 두 점 수직/수평 거리 (블록거리같은 지리적 위치데이터를 측정할 수 있음) 코사인 유사도(Cosine similarity): 두 벡터 / 각도 / 주로 고차원 데이터에 적합 (각도라 차원의 영향을 받지 않음) 자카드 유사도(Jaccard similarity): 두 집합 / 공통 원소 비율 (영상처리) 매치 유사도(Match similarity): 문자열, 시퀀스 데이터 / 부분 문자열이 얼마나 일치하는지를 계산 (문자열 매칭, 검색) 편집 거리(Edit distance): 두 문자열 사이의 삽입, 삭제, 대체 연산의 최소 횟수를 계산 (음성인식, 문자열매칭) 이 중에서 유클리드 거리.. 2023. 3. 12.
L1, L2 (loss, regularization, norm) L1 loss : MAE 실제값 yi 와 예측값 f(xi)의 편차의 절댓값의 합 L2 loss : MSE 실제값 yi 와 예측값 f(xi)의 편차의 제곱의 합 Robust : L1 > L2 L1이 outlier에 더 robust 하다. (=loss function이 영향을 덜 받는다) 왜냐하면, L2는 편차에 제곱까지 해버리기 때문에 이상치가 나오면 그 편차를 제곱해서 그 영향이 클 수 밖에 없다. outlier가 무시되길 원하면 비교적 영향을 작게받는 L1 loss가 적합하다. Stablity : L2 > L1 L2 loss는 smooth한 convex 형태의 함수로 그래프또한 원형. 그래서 모든 점에서 미분이 가능하다. 그렇기 때문에 미분이 전부인 딥러닝에서는 L2가 계산에 더 안정적이라고 본다. S.. 2023. 3. 12.
데이터 수집처 한국적 사운드가 있는곳 http://www.ksoundlibrary.kr/front/main/menu/t1_m1.do K-SOUND LIBRARY_한국형 영화효과음원 콘텐츠에 필요한 효과음원 18021건 보유, 소리로 그리는 세상 - 케이사운드 라이브러리 www.ksoundlibrary.kr Sound list http://www.ksoundlibrary.kr/front/images/K-SOUND%20LIBRARY%20LIST.pdf 드럼 비트가 있는곳 https://www.looperman.com/tracks/detail/240245#plays Listen To Secretly Love You Disco Songs At Looperman.com Recorded, written & played in my.. 2023. 3. 11.
Contrastive Learning Contrastive Learning for Recommender System (2021.01) https://arxiv.org/pdf/2101.01317.pdf Practical Impliciation The practical implications of this paper are that it provides a new framework for recommender systems, which can be used to improve the performance and accuracy of such systems. This proposed framework includes two main components: a graph contrastive learning module and debiased con.. 2023. 3. 10.
Transformer 1 - Positional Encoding Seq2seq의 Encoder-Decoder를 6개 쌓아올린 모델. Enc-Dec x 6 은 아니고, Enc x 6 + Dec x 6임. RNN, LSTM 등의 기존 문장의 연속성을 무시 이를 무시하니 병렬구조가 가능해져서 연산속도가 엄청 빨라졌음. seq2seq처럼 context vector를 중간 병목으로 쓰지 않음. Self attention, 즉 내가 들어가서 내가 나오는 재귀적인 구조임. 문장의 문맥 + 단어의 순서 (위치)까지 attention에 담았음. 논문 : https://arxiv.org/pdf/1706.03762.pdf (Attention is all you need (2017)) 각 모듈이 하는 일을 간단하게 정리하면, Positional Encoding: 입력 문장의 단어들에 위치.. 2023. 3. 9.
이해는 하는게 아니고 오는거다 이해 안간다고 머리 쥐어뜯지 말기 이해가 잘 될때쯤 머리 심고싶지 않으니깐. 시간은 없지만 조급은 하지만 그렇지 않은척하기. 내 머릿속의 노드들이 조그마한 시냅스들이 그 회로를 뚫어줄때까지 묵묵히 이해가 오길 기다리기. 노이해는 어서가고 응이해는 어서와랏. 어차피 시간싸움 결국은 내가 이기니깐. 2023. 3. 7.
3D 음악 사진 : 2D / 영화 : 2D + 시간축 = 3D 사진 : Conv2D / 영화 : Conv3D 그렇다면, 소리 : frequency + time = 2D 음색을 담은소리 : 2D + 배음축(고도차) = 3D 소리 : Conv2D / 음색소리 : Conv3D 어떨까? 음색을 잡아내는 것을 특징추출이라고 생각하고, 사진에서 쓰이는 기법들과 비슷하게 생각하고 있었는데, 소리에 의미를 더하는 개념으로, 임베딩 + 영상처리를 하는 쪽과 연관지어 보면 다른 생각이 날 듯 하다. transformer로 영상을 generator하는 모델을 보면 좋겠다. 일단은 spectrogram은 2D 시각화만 가능하고, 3D로 보여지는 음악에 관련된 시각그래프가 있는지도 알아보고. 2023. 3. 7.
모델 발전과정 3 - GNMT (Google's Seq2seq 8 layers w. Residual) Google's Neural Machie Translation System 2016년 구글의 신경망 번역 시스템 8개 층을 쌓은 Encoder-Decoder 구조 Residual Connection 사용 Bahdanau Attention 채택 토큰 처리를 하지 않고 단어를 그대로 복사하여 적당한 위치에 배치하는 Copy Model을 사용 장점 정확도가 올라감 학습속도 빨라짐 기울기 소실 문제 해결가능 https://norman3.github.io/papers/docs/google_neural_machine_translation.html Google's Neural Machine Translation System. 그리고 \(sigmoid, tanh\) 등의 함수와 element-wise 연산인 \( (\.. 2023. 2. 28.
모델 발전과정 2 - Attention (Bahdanau / Luong) Attention https://arxiv.org/pdf/1409.0473.pdf 0. Abstract The models proposed recently for neural machine translation often belong to a family of encoder–decoders and encode a source sentence into a fixed-length vector from which a decoder generates a translation. In this paper, we conjecture that the use of a fixed-length vector is a bottleneck in improving the performance of this basic encoder.. 2023. 2. 28.
모델 발전과정 1 - SLM / NNLM / RNN / Seq2seq 언어 모델(Language Model) 주어진 단어들을 보고 다음 단어를 맞추는 모델 단어의 시퀀스를 보고 다음 단어에 확률을 할당 하는 모델에서 주변 단어를 보고 중심 단어를 예측하는 형태로 발전하게 됨. 통계적 언어 모델 (Statistical Language Model) 단점 한 번도 본 적 없는(학습 데이터에 존재하지 않는) 단어 / 문장에 대해서는 확률을 부여할 수 없다. 따라서 언어 모델이 아우르는 범위를 넓히기 위해 다양한 단어를 포함하는 데이터가 필요하다. (양까지 충분하다면 정의하는 확률이 일반적이므로 더욱 좋다.) 신경망 언어 모델 (Neural Network Language Model : NNLM) NNLM의 시초는 Feed-Forward 신경망 언어 모델인데, 지금의 Embeddin.. 2023. 2. 27.
죽음에 관련된 AI Generator 죽음 관계적 - 나자신 (처음, 두려움, 떨림, 홀가분, 새로운시작, 끝, 아쉬움, 걱정, 사람들) - 남은사람 (아쉬움, 반가움, 고리의 끊김, 자립, 홀로서기, 책임감, 당황스러움, 당했을때는 처음, 옆에서는 여러번의 익숙함) 생물학적 - 생명력의 끝 (세포의 생성과 순환과정이 끝나는 것) - 시간, 유한함, 필연적임 - Density 예술적 - 창의적인 활동의 멈춤 - 신선함이 없는 상태 - 유지와 부패의 사이 - 미지의 세계 인간과 기계 - 다른 특성을 가짐 - 하지만 매우 밀접함 - 인간은 기계를 만드는 thing - 인간은 기계와 함께 일하는 thing - 인간은 기계에 의존하는 thing - Hierarchical structure - 인간은 생명활동을 멈출 때. 노화 - 기계는 죽지 않는다.. 2023. 2. 25.
728x90