Multimodal Learning (1) Multimodal Representations
참고 논문 :
Baltrušaitis, Tadas, Chaitanya Ahuja, and Louis-Philippe Morency. “Multimodal machine learning: A survey and taxonomy.” IEEE transactions on pattern analysis and machine intelligence 41.2 (2018): 423-443.
- Abstract
- Introduction
- Multimodal Representations
- Unimodal Representation
- Multimodal Representation의 2 종류
- Joint representation 모델
- Coordinated representation 모델
- 요약
- Translation
- Example-based
- Generative approaches
- Alignment
- Explicit alignment
- Implicit alignment
- 요약
- Fusion
- Model-agnostic approaches
- Model-based approaches
- 요약
- Co-learning
- Parallel data
- Non-parallel data
- Hybrid data
- 요약
- Conclusion
0. Abstract
우리가 얻게 되는 데이터는 수 많은 source에서 온다! (Multimodalities)
Multimodal Learning의 challenges :
- 1) representation
- 2) translation
- 3) alignment
- 4) fusion
- 5) co-learning
1. Introduction
이 논문에서는 3가지 multimodality에 집중!
- 1) natural language ( written & spoken )
- 2) visual signals ( images & videos )
- 3) vocal signals
Multimodal ML의 목표 :
- build models that can process/relate informations from multiple modalities
[ 5가지 challenges ]
1) representation
- multimodal data를 얼마나 잘 축약(represent/summarize)하는지
- “잘 축약하다” = 서로 다른 데이터의 “상호보완성/중복성을 잘 캐치한다”
2) Translation
- 하나의 modality에서 다른 modality로 translate!
- 단 하나의 정답만 존재하는 것은 X
3) Alignment
여러 modality 사이의 relation 파악
( = measure similarity )
4) Fusion
- 여러 modality의 데이터를 잘 join하여 예측을 수행
- ex) 입모양을 통해, 하고 있는 말 예측하기
5) Co-learning
- “transfer knowledge between modalities”
- 정보가 풍부한 특정 modality를 사용하여, 정보가 부족한 다른 modality 보완!
2. Multimodal Representations
핵심 : “다른 modality의 데이터를 어떻게 combine하여 좋은 representation으로 나타낼까?”
좋은 representation이란?
- smoothness
- temporal & spatial coherence
- sparsity
- Similarity in the representation space를 통해 검증하기!
(1) Unimodal Representation
- 이미지) CNN
- 음성)
- speech recognition) MFCC (Mel-frequency cepstral coefficients)
- para-linguistic analysis) RNN
- 텍스트)
- (구) count based
- (신) word-embedding
\(\rightarrow\) 여태까지는, multimodal representation이라하면. 단지 이 unimodal representation들을 concatenate하는 것에 불과했었다. 하지만 최근에 다양한 방법론들이 제안되고 있음!
(2) Multimodal Representation의 2 종류
- Joint Representation
- Coordinated Representation
a) Joint representation
- unimodal representation을 같은 space에 combine시킴
- \(\mathbf{x}_{m}=f\left(\mathbf{x}_{1}, \ldots, \mathbf{x}_{n}\right)\).
- \(f\) : DNN, RBM, RNN,…
주로 사용하는 때 : training & inference step에서 모두 multimodal data가 존재할 때
- 3가지 모델
- 1) Neural Networks (NN)
- 2) Probabilistic Graphical Models (PGM)
- 3) Sequential Representation
b) Coordinated representation
- unimodal signal을 각각 따로 처리하고, 특정 similarity constraint를 사용하여 그들을 coordinated space상응로 가져옴
- \(f\left(\mathrm{x}_{1}\right) \sim g\left(\mathrm{x}_{2}\right)\).
- 각각의 modality는 자신만의 function (위의 \(f,g\))가 있음
- 각각의 결과로 나온 space는 서로 coordinated 되어 있음 ( notation : \(\sim\) )
- ex) cosine distance 최소화, correlation 최대화, 서로 다른 space간에 partial order enforce
- 주요 모델
- 4) Similarity models
- 5) Structured Coordinated Space models
(3) Joint representation 모델
모델 1) Neural Networks (NN)
end-to-end 학습 ( representation & prediction 한번에 )
Pre-train하여 사용
1) ( Ngiam et al ) Autoencoders 사용
- (1) Stacked denoising AE 사용하여 modality 각각 따로 represent
- (2) 그런 뒤 Multimodal representation로 fuse ( 또 다른 AE 사용해서 )
2) Silberer and Lapata
Multimodal autoencoder for the task of semantic concept grounding
사용 loss function :
- 요소 1) Reconstruction loss
- 요소 2) representation to predict object labels ! 여기서 발생한 loss
Fine-tune the resulting representation
NN의 장/단점
- 장) pre-train 사용가능
- 단) data 양 부족한 경우
모델 2) Probabilistic Graphical Models (PGM)
latent random variable 사용하여 representation 생성
1) DBM (deep Boltzmann machines)
학습 과정에서 label 달린 데이터 필요 없음!
probabilistic한 모델이나, determistic NN으로 바꿀 수도 있음
( but generative 속성 사라짐 )
2) Multimodal DBN (deep belief networks) ( Srivastava and Salakhutdinov )
3) DBN을 각 modality에 적용한 이후, combine하여 joint representation 생성 (Kim et al.)
4) Multimodal DBN을 Multimodal DBM으로 확장 ( Srivastava and Salakhutdinov )
- low level representation에서 modality 끼리 서로 영향 주고받음
그 밖에도 다양한 적용 사례…
Multimodal DBM의 장/단점
- 장점) generative 속성
- missing data 다루기 good)
- 한 modality의 데이터를 통해, 다른 modality의 데이터 생성 가능!
- 단점) computational cost
- variational training method 사용해서 해결 노력
모델 3) Sequential Representation
- fixed length 데이터가 아닌 경우! (sequential data)
- hidden state at time stamp \(t\) : \(t\)시점까지의 “summarization”으로 볼 수 있음
- 단지 unimodal domain에 국한되어 있는 건 X
- Multimodal Representation using RNNs ( Cosi et al )
(4) Coordinated representation 모델
앞서 말했듯이, 각 modality에서 각자의 representation을 학습한다 ( with constraint )
constraint : “enforce similarity between representations”
모델 4) Similarity Models
목표 : “minimize distance between modalities in the coordinated space”
- ex) “사진” 강아지와, “단어” 강아지의 거리가 가깝도록!
1) WSABIE (web scale annotation by image embedding)
- 데이터 : 이미지 & 주석(설명)
- simple linear mapping
- inner product \(\rightarrow\) cosine distance 사용
( 최근에는 Neural Networks… “end-to-end” )
2) DeViSE (deep visual-semantic embedding)
- WSABIE와 비슷한 inner product / ranking loss function
- NN 사용하여 더 complex한 image & word embedding
3) DeViSE에 LSTM 적용 & pairwise ranking loss 사용 ( Kiros et al )
그 밖에도, 이미지 대신 비디오 사용한 모델들도 등장
\(\rightarrow\) 지금까지 언급한 위의 모델들은 representation들 사이의 “similarity”를 enforce함.
모델 5) Structured Coordinated Space models
similarity enforce 보다 더 나아가서, 추가적인 constraint 부여
ex) hashing, cross-modal retrieval, image captioning
주로 cross-modal hashing에서 사용
- “compression of high-dimension data into compact binary codes with similar binary codes for similar objects”
Hashing 세 가지 요건
- a) N-차원의 Hamming Space (binary representation)
- b) 같은 object, 다른 modalities : 비슷한 hash code 가져야
- c) space는 similarity preserving해야
a) DNN 적용 ( Jiang and Li )
- binary space between 문장 & 이미지
b) LSTM ( Cao et al )
- outlier insensitive bit-wise margin loss
- relevance feedback based semantic similarity constraint
c) CCA based model (Canonical Correlation Analysis)
핵심 : random variable 사이의 correlation을 maximize하는 linear projection 계산
extensions ) CCA를 non-linear하게!
KCCA (Kernel CCA) : reproducing kernel Hilbert space 사용
( RKHS는 여기 참고 : )
nonparametric하기 때문에 scalability 안좋음…
KCCA의 scalability 문제 해결 + 더 나은 성능!
CCA 모델들 요약 :
- “unsupervised technique”
- “only optimize correlation over the representations”
Deep canonically correlated autoencoder
AE based reconstruction term 또한 추가!
( representation으로 하여금 modality specific info 또한 잡아낼 수 있게끔 함 )
그 외) Semantic correlation maximization method…
\(\rightarrow\) CCA와 cross-modal hashing의 combination 가능케함!