Multi-modal Time Series Analysis: A Tutorial and Survey

https://arxiv.org/pdf/2503.13709


1. Introduction

(1) Overview

a) Background

  • TS Analysis: 다양한 도메인에서 핵심적인 역할
  • 기존 연구: temporal dynamics 모델링에 집중


b) Challenges

  • 실제 환경: TS는 단독으로 존재 X
  • 대부분 external context와 함께 관측됨
    • 금융: stock price + news text
    • 의료: physiological signals + clinical notes
    • 교통: traffic flow + textual / spatial context
  • 이런 context는 multi-modal 형태 (Text, Image, Tabular, Graph 등)

\(\rightarrow\) Multi-modal TS의 필요성: 더 comprehensive view 제공


(2) Challenges

  • (1) Heterogeneity: 각 modality는 통계적 특성과 구조가 다름
    • TS: temporal dependency 중심
    • Text/Image: semantic structure 중심
  • (2) Modality Gap
  • (3) Temporal Misalignment
    • modality마다 timestamp, granularity가 다름
  • (4) Contextual Noise
    • 실제 데이터에는 task와 무관한 정보가 많음


(3) 최근 연구 동향

  • DL 기반 cross-modal interaction 기법

  • 기존 survey의 한계

    • a) Task-specific, domain-specific
    • b) Unified perspective 부재


(4) 이 논문의 목표

Multi-modal TS Analysis를 systematic + unified + up-to-date 정리


핵심 개념을 cross-modal interaction framework로 정리

  • (1) Interaction type:
    • Fusion / Alignment / Transference
  • (2) Interaction stage:
    • Input / Intermediate / Output


Contribution

  • 40개 이상의 대표적 multi-modal TS 방법 정리
  • Unified taxonomy 제시
  • 다양한 real-world application 정리
  • Future research direction 제안


2. Background and Our Scope

(1) Multimodal ML

서로 다른 modality를 jointly modeling

  • (1) Representation learning
    • Modality별 특성과 joint semantics를 동시에 encoding
  • (2) Cross-modal interaction
    • Modality 간 element-level 관계 포착
  • (3) Knowledge transference
    • 한 modality에서 학습한 정보 \(\rightarrow\) 다른 modality로 전달
  • (4) Theoretical / empirical analysis
    • Multi-modal learning의 성질 분석


(2) Multi-modal TS Analysis

이 논문의 관점

  • 단순한 modality 결합이 아니라, cross-modal interaction을 어떻게 설계하느냐!
  • 세 가지 관점
    • Data (Section 3)
    • Cross-modal Interaction Methods (Section 4)
    • Applications (Section 5)


Scope 명확화 1: TS 유형

  • 다루는 대상: Standard TS & Spatial TS
  • Spatial structure (graph)
    • TS에 내재된 구조로 간주
    • 독립적인 modality로 취급하지 않음


Scope 명확화 2: Multi-modal의 기준

  • 외부 real-world context를 활용하는 방법에 집중

  • 의도적으로 제외한 접근: TS를

    • image로 변환
    • table로 변환

    해서 single-modality로 처리하는 방법


기존 survey와의 차별점

  • a) Vision 중심 survey
    • Imaging-based TS transformation에 국한
  • b) LLM reasoning 중심 survey
    • Multi-modal reasoning에 초점
  • 본 논문: modality나 task에 제한되지 않고 통합적 taxonomy + interaction 중심 분석 제공


3. Multi-modal TS Data

(1) Data Sources and Modalities

Multi-modal TS

  • TS를 중심 modality+ 다양한 context modalities를 함께 활용


[Main] TS (Primary Modality)

  • (연속 또는 이산적인) Temporal signal
  • 핵심 특성
    • strong temporal dependency
    • non-stationarity
    • noise sensitivity


[Sub] Text Modality

  • 가장 널리 사용되는 auxiliary modality
  • ex) news articles, clinical notes ..
  • 처리 방식: Transformer-based encoder, pre-trained LLM
  • 역할
    • latent semantic context 제공
    • event-driven dynamics 설명


[Sub] Image / Video Modality

  • 시각적 context 제공
  • ex) satellite images (climate, traffic), medical images …
  • 특성
    • Spatial information이 강함
    • TS와 temporal alignment 필요


[Sub] Tabular / Metadata

  • Static or slowly-varying context
  • ex) Demographics, device information …


[Sub] Graph / Spatial Structure

  • Sensor network, traffic network 등


(2) Temporal Alignment and Granularity

Temporal Alignment 문제: modality마다

  • sampling rate

  • timestamp

  • observation frequency

    가 다름


대표적 alignment 방식

  • (1) Hard alignment
    • Timestamp 기준으로 직접 매칭
    • Interpolation, aggregation 활용
  • (2) Soft alignment
    • Attention 기반 alignment
    • Latent time mapping 학습
  • (3) Event-based alignment
    • 특정 event 발생 시점을 기준으로 결합


Granularity mismatch

  • ex) minute-level sensor + daily news
  • 해결 전략
    • up/down sampling
    • hierarchical temporal modeling


(3) Data Challenges

  • (1) Missing Modality
    • 일부 timestamp에서 특정 modality가 존재하지 않음
  • (2) Noise and Irrelevance
    • auxiliary modality가 항상 유용하지 않음
    • task-irrelevant information 포함 가능
  • (3) Scalability
    • multi-modal 데이터는 storage, computation 비용 증가
  • (4) Label Scarcity
    • multi-modal dataset은 annotation 비용이 큼


(4) Representative Datasets

Examples)

  • Healthcare
    • physiological signals + clinical text
  • Finance
    • market TS + news / social media
  • Transportation
    • traffic sensor + spatial / visual data
  • Climate
    • meteorological TS + satellite imagery


중요한 관찰: 대부분의 dataset은

  • 특정 task에 강하게 종속됨

  • general-purpose benchmark가 부족함


4. Cross-modal Interaction Methods

두 개의 축

  • (1) interaction 방식
  • (2) interaction 시점


(1) Interaction Taxonomy 개요

  • 모든 방법은 다음 두 질문으로 분류 가능
    • What to interact: modality 간에 무엇을 주고받는가
    • When to interact: 모델의 어느 stage에서 상호작용하는가
  • 이를 통해 제안하는 unified taxonomy
    • Interaction Type
      • Fusion
      • Alignment
      • Transference
    • Interaction Stage
      • Input-level
      • Intermediate-level
      • Output-level


(2) Interaction Types

a) Fusion

  • 정의: 여러 modality의 representation을 하나의 joint representation으로 통합
  • 대표적 방식
    • Concatenation
    • Summation
    • Gated fusion
    • Cross-attention
  • 특징
    • 구조가 단순
    • end-to-end 학습이 쉬움
    • modality 간 관계를 명시적으로 제어하기 어려움
  • TS 관점
    • auxiliary modality는 TS representation을 보완하는 역할
    • early fusion vs late fusion 차이가 큼


b) Alignment

  • 정의: modality 간 correspondence를 명시적으로 학습
    • time axis 또는 semantic space에서 정렬
  • 대표적 기법
    • Cross-modal attention
    • Contrastive learning
    • Dynamic time alignment
  • 핵심 아이디어
    • “어느 text가 어느 time step과 관련 있는가”
    • “어느 image patch가 어느 temporal pattern과 대응되는가”
  • 장점
    • interpretability 향상
    • noisy modality에 강함


c) Transference

  • 정의: 한 modality의 knowledge를 다른 modality로 전이(transfer)
  • 대표적 방식
    • Teacher–Student learning
    • Representation distillation
    • Auxiliary task learning
  • 사용 시점
    • inference 시 auxiliary modality가 없을 때
    • missing modality 문제 해결
  • TS에서의 의미
    • training 단계에서만 text/image 사용
    • inference에서는 TS 단독 사용 가능


(3) Interaction Stages

a) Input-level Interaction

  • 개념: raw input 또는 shallow embedding 단계에서 결합
  • 예시
    • TS embedding + text embedding concat
    • positional alignment 후 joint input 구성
  • 장점
    • 구현 간단
    • modality 정보가 early부터 반영됨
  • 한계
    • heterogeneity handling이 어려움
    • noise propagation 위험


b) Intermediate-level Interaction

  • 개념: modality별 encoder 이후 hidden representation 단계에서 상호작용
  • 대표적 구조
    • dual-encoder + cross-attention
    • shared latent space projection
  • 장점
    • modality 특성을 유지한 채 interaction 가능
    • 가장 널리 사용되는 방식
  • 논문의 관찰: 성능과 안정성 측면에서 가장 robust한 선택


c) Output-level Interaction

  • 개념: modality별 prediction을 결합
  • 예시: ensemble, decision-level fusion
  • 특징
    • 모델 간 독립성 유지
    • deep interaction은 제한적


(4) Interaction Design Considerations

Task dependency

  • a) Forecasting: temporal alignment 중요
  • b) Classification: semantic fusion 중요


Data availability

  • a) missing modality 여부
  • b) inference-time constraint


Model complexity

  • a) alignment-based methods는 계산량 증가


(5) 핵심 takeaway

  • 성능 차이는
    • modality 자체보다
    • interaction design에서 발생
  • 특히 아래가 중요!
    • Intermediate-level + Alignment/Fusion
    • Transference for missing modality

Updated: