How Can Time Series Analysis Benefit From Multiple Modalities? A Survey and Outlook
-
인용 수 (2025-08-27): 9회
-
https://arxiv.org/pdf/2503.11835
-
https://github.com/AdityaLab/MM4TSA
1. Abstract
Time Series Analysis (TSA)
-
여전히 단일 modality 중심으로 연구
-
언어·비전·오디오 등 “rich modalities”에 비해 상대적으로 고립됨.
MM4TSA (Multiple Modalities for TSA)
TSA를 강화하기 위한 3가지 방식 제시:
- TimeAsX: 다른 modality의 foundation model 재사용
- Time+X: Multimodal 확장
- Time2X / X2Time: cross-modal 상호작용
분류
- modality 별 (text/image/audio/table)
- domain 별(finance/medical/spatial-temporal)
2. Introduction
(1) Motivation & Proposal
T는 다른 modality와의 통합 부족!!
\(\rightarrow\) Interpretability와 generalization 측면에서 한계가 있음.
반면 language, vision 등:
- Foundation models(GPT, ViT 등)의 급성장으로 발전 가속화!
3. Related Works
기존 survey들:
- 대부분 LLM을 TSA에 사용하는 방법(Time as Text)에만 치우쳐 있음
MM4TSA
-
Modality 전체 (text/image/audio/table) 및 interaction까지 포괄
-
핵심 분류 구조:
- TimeAsX: 다른 modality foundation model 재사용
- Time+X: multimodal 확장
- Time2X / X2Time: input/output을 넘나드는 interaction
- Domain별 구조 (Finance, Medical, Spatial-temporal)
- modality 유형별 서브분류 (예: Text → Prompt, Caption, Retrieval 등)
4. Methodology (Taxonomy)
(1) TimeAsX: Foundation Model Reuse
- Text: GPT 활용 (LLMTime, ChatTS 등), prompt 기반/embedding 기반/quantization 기반 alignment 방식
- Image: line-graph, heatmap, spectrogram, GAF 등으로 변환 → ViT 등 vision model 활용
- Audio: wavelet transform 등으로 변환 → AST/SSAST 활용
- Table: TabPFN 기반 구조 활용. Tabular feature로 TS 표현
(2) Time+X: Multimodal Fusion
-
Text를 정적 (meta info) & 동적(news, weather 등)으로 구분하여 TS에 결합
- Fusion 방식
- Early / Intermediate / Late
-
예시: MM-TSFlib, GPT4MTS, TGForecaster, DualForecaster
-
Domain별 Multimodal 구조:
- Finance: 뉴스 + 가격
- Medical: ECG + Report + Tabular + X-ray
- Spatial: 센서값 + 이미지/뉴스/지도 등
(3) Time2X & X2Time: Cross-Modality Interaction
- Text2Time: textual description 기반 synthetic TS 생성
- Time2Text: TS caption, 설명 자동 생성
- 양방향 QA: ChatTime, Time-MQA 등
- 의료: ECG → report or QA, Text → synthetic ECG 등
5. Experiments
MM4TSA 주요 Dataset
Dataset | Modalities | Domain | 특징 |
---|---|---|---|
Time-MMD | Time + Text | General | 9 domains, 24년 분량 |
ChatTime | Time + Text | Weather 등 | 날짜/날씨 info 포함 |
TSQA | Time + Text | Multi-task QA | human-curated 1.4k QA |
MIMIC, PTB-XL | Time + Text/Image | Medical | EHR + ECG + 보고서 |
Terra | Time + Text/Image | Climate | 전 지구적 데이터셋 |
비교 구조/전략 요약
- 다양한 fusion 방식 (Early/Late/Intermediate) 별로 주요 모델 사례 설명
- Text2Time의 경우 CLaSP, BRIDGE, ChatTS 등이 대표적
- Time2Text는 Captioning/Explanation/QA 등으로 나뉨
6. Conclusion
MM4TSA는 TS 분석을 위해
- multimodal fusion
- foundation model reuse
- interaction
을 통합한 새로운 패러다임.