MCD-TSF: Multimodal Conditioned Diffusive Time Series Forecasting (arxiv 2025)

  • 인용 수 (2025-08-27 기준): 3회
  • https://arxiv.org/pdf/2504.19669


1. Abstract

Motivation: 기존 Diffusion-based TSF model은 “Unimodal”

  • Numerical TS only … Multimodal 정보 활용 부족!


Proposal: “MCD-TSF”

  • Architecture: Diffusion-based TSF model
  • Condition: (1) Timestamp & (2) Text
  • How: Classifier-Free Guidance (CFG) \(\rightarrow\) Text 사용 강도를 조절!


Experiments

  • 8개 real-world 도메인에서 SoTA

  • Code: https://github.com/synlp/MCD-TSF


2. Introduction

(1) Motivation

Limitation of previous works

  • [Deterministic] TS는 무작위성 & 불확실성을 포함 → Deterministic 모델로는 한계
  • [LLM] 최근 LLM 기반 접근은 TS \(\rightarrow\) text로 변환하는데, 이 과정에서 numerical 정보 손실 발생
  • [Diffusion] 기존 diffusion-based TSF model은 단일 modality에 국한
    • e.g., Timestamp/text 등 부가 정보는 활용 부족.


(2) Proposal: MCD-TSF

a) Timestamp & b) Text 정보를 함께 사용하는 conditional diffusion model

  • a) Timestamp: temporal 구조 보완
  • b) Text: historcal 의미 강화

  • CFG: Text 정보 활용 정도를 inference 시 동적으로 조절 가능!


3. Related Works

(1) Diffusion for Time Series

예시: D3VAE, MG-TSD, CSDI

Limitations

  • (1) 제한적 task: TSF/imputation 용

  • (2) External modality 활용 제한적: 대부분 temporal hierarchy만 포착


(2) Multimodal TSF

예시: TimeLLM, MM-TSF, PromptCast 등.

  • 방식) [Text embedding + TS input]을 concat
  • 단점)
    • LLM cost 과다
    • Text 과의존성 문제
    • Timestamp 활용은 deterministic 처리만 존재


4. Methodology

(1) Architecture

figure2

  • 3가지 입력:
    • TS \(X\)

    • Timestamp \(T\)

    • Text \(E\)

  • Diffusion process를 통해 “Noise→ Future TS”

  • 3가지 주요 구성:
    • Multimodal Encoder: Conv + BERT + timestamp 추출기
    • Fusion Module: TAA (timestamp), TTF (text)
    • CFG: text 사용 강도 \(w\)로 조절


(2) Training

Forward & Reverse

  • [Forward] Gaussian noise 추가
  • [Reverse] \(Y_{k-1} \sim \mathcal{N}(\mu, \sigma^2 I)\)
    • Condition: \((X, T, E)\)
  • Loss: Conditional MSE (text 포함/미포함 모두 학습)


5. Experiments

(1) Dataset

  • Time-MMD 기반 8개 도메인
    • Agri, Climate, Economy, Energy, Env, Health, Social, Traffic
  • Text coverage는 도메인별 4.2%~100%
  • Timestamps: day/week/month → normalized vector
  • Text: 과거 36기간의 보고서를 GPT 스타일 템플릿으로 구성


(2) Task

  • Time Series Forecasting (short/medium/long)


(3) Baselines

  • DIFF 계열: DIFF, DIFF+TAA, DIFF+TTF, DIFF+TAA-T, DIFF+TTF-T
  • Transformer 계열: PatchTST, Autoformer, FEDformer, Reformer, HCAN
  • MLP 계열: FiLM, DLinear, TimeMixer++
  • LLM/Text: TimeLLM, FPT, MM-TSF
  • Probabilistic: CSDI, D3VAE
  • Timestamp: TimeLinear, GLAFF


(4) Resource

  • BERT base 사용 (frozen)
  • Fusion layer: TAA + TTF 6개 층
  • DDIM 기반 noise schedule
  • 학습 시 puncond=0.1, test 시 w=0.8 (CFG Text 사용 조절)
  • Evaluation: MSE, MAE


(5) Results

  • Timestamp-Assisted Attention (TAA)
  • Text-Time series Fusion (TTF)

figure2

figure2


6. Conclusion

MCD-TSF

  • TS + timestamp + text를 함께 통합
  • 예측 정확도와 확장성을 개선한 diffusion 기반 모델

Experiments

  • 8개 도메인 전반에서 기존 diffusion, transformer, LLM 기반 모델 모두에 비해 우수한 성능.

  • timestamp와 text의 동적 결합 + CFG 조절 기법이 핵심 기여.

Categories: , ,

Updated: