Multimodal Transformer for Unaligned Multimodal Language Sequences

Abstract

인간의 행동/언어 관련 많은 행동들은 Multimodal

(time-series와 관련된) Multimodal modeling에서의 문제점

1) non-alignment
2) long-range dependencies

이 문제를 해결하기 위해 제안한 MulT (Multimodal Transformer)

MulT

non-alignment를 align함으로써 해결하는게 아님!

( non-aligned 상태 그대로 사용 )
directional pairwise cross-modal attention 사용
- interaction between modalities 잡아내
- one modality \(\rightarrow\) other modality

1. Introduction

HETEROgeneties across modalities

ex) 화나서 친구한테 욕 엄청한 다음, 꾹 참다가 5초뒤 때림

( 욕을 뱉었던 시간 \(\neq\) 때린 시간 )
“unaligned”되어있다 & long term dependencies across modalities가 필요!
- unaligned = modality 별 sequence 길이가 다름!

기존의 방법들 : unaligned를 aligned로 수정하려는 시도들!

문제저 많음

manual, interaction 포착 X, long-range cross modal contingencies of original features 고려 못함, 도메인 지식 필요 등….

그래서 MulT를 제안!

핵심 : cross-modal attention module
- 전체 발화(utterance)를 attention
- one modality \(\rightarrow\) other modality

2.Related Work

Human Multimodal Language Analysis

Early Fusion / Late Fusion
Hierarchical attention
Adjusted the word representations using accompanying non-verbal behaviors
cyclic translation objective
cross-modal AE for audio-visual alignment

위의 모든 방법들은 모두 “aligned” 가정 하에!

( 우리 MulT는 align 안해도 됨! )

Transformer

친숙하니 Skip

3. Proposed Method

for modedling unaligned multimodal language sequences\

[ 아키텍처 상세 소개 ]

multiple directional pairwise crossmodal transformer 사용!

각각의 crossmodal transformer : source modality \(\rightarrow\) target modality 유도
“모든” pair of modality를 모델링함

3-1. Crossmodal Attention

( 두 modalities \(\alpha\) & \(\beta\) )

latent adaptation from \(\alpha\) to \(\beta\) :

\[Y_{\alpha}:=\mathrm{CM}_{\beta \rightarrow \alpha}\left(X_{\alpha}, X_{B}\right) \in \mathbb{R}^{T_{\alpha} \times d_{v}}\] \[\begin{aligned} Y_{\alpha} &=\mathrm{CM}_{\beta \rightarrow \alpha}\left(X_{\alpha}, X_{\beta}\right) \\ &=\operatorname{softmax}\left(\frac{Q_{\alpha} K_{\beta}^{\top}}{\sqrt{d_{k}}}\right) V_{\beta} \\ &=\operatorname{softmax}\left(\frac{X_{\alpha} W_{Q_{\alpha}} W_{K_{\beta}}^{\top} X_{\beta}^{\top}}{\sqrt{d_{k}}}\right) X_{\beta} W_{V_{\beta}} \end{aligned}\]

* self attention 아님!

그런 뒤…

residual connection
pointwise FFNN

3-2. Overall Architecture

\(L\) (Language). \(V\) (Video), \(A\) (Audio)

Temporal Convolutions

주변 요소 (neighborhood elements) 정보 반영 위한 1D conv layer 사용

Positional Embedding

temporal 정보 catch

Crossmodal Transformer

하나의 crossmodal transformer는 \(D\) 개의 crossmodal attention block으로 구성

( 위에서 crossmodal attention block 자세히 설명했었음 )
한 modality에서 다른 modality로 정보 전달 가능케함

Self-Attention Transformers & Prediction

같은 target modality를 가지는 crossmodal transformer의 output들 concatenate!

ex) \(Z_{L}=\left[Z_{V \rightarrow L}^{[D]} ; Z_{A \rightarrow L}^{[D]}\right]\)
concatenate되있는거 NN타고 최종 output 산출

Twitter Facebook LinkedIn

[multimodal] Multimodal Transformer

Seunghan Lee