Beyond Numbers: A Survey of Time Series Analysis in the Era of Multimodal LLMs

  • 인용 수 (2025-08-27): 2회
  • https://www.techrxiv.org/users/906388/articles/1281390-beyond-numbers-a-survey-of-time-series-analysis-in-the-era-of-multimodal-llms
  • https://mllm-ts.github.io/


1. Abstract

  • Multimodal LLMs (MLLMs)의 발전
  • Survey: TS를 다양한 modality (text, image, audio, graph, table 등)로 표현
    • 이에 적합한 MLLM 구조들을 체계적으로 정리함.
  • Data 측면: 시계열 modality 6가지 분류 제시.
  • Model 측면: modality별 대표 MLLM 구조와 적용 사례 제시.
  • 향후 연구 방향: video 기반 시계열, reasoning, agents, interpretability, hallucination 등 .


image-20250827103551068


2. Introduction

(1) Motivation & Proposal

  • TS는 단순 숫자 배열을 넘어서 다양한 modality로 표현 가능 → MLLM과 궁합이 좋음.

  • 본 논문은 시계열을 6가지 modality로 분류

    & 각 modality에 적합한 MLLM 구조/적용 예를 총정리

  • 정리 프레임워크:

    • 데이터 기반 분류: Number, Text, Image, Graph, Audio, Table
    • 모델 기반 분류: 각 modality에 맞는 MLLM 구조 (encoder, adapter, LLM)


3. Related Works

기존 survey의 한계점

  • LLM만을 다루거나, multimodal 적용은 부족.


\(\rightarrow\) 본 논문은 시계열 데이터를 multimodal 관점에서 확장하고, 해당 modality별로 적절한 MLLM 구조까지 포함한 최초의 서베이 .


4. Methodology

(1) Taxonomy of Time Series Modalities

Modality Advantage Limitation Example Domain
Number Raw TS 그대로 Interpretability 낮음 General
Text LLM과 호환성 높음 Tokenizer 한계, context 제한 Healthcare, Finance
Image Vision encoder 활용 용이 해상도 민감, MTS 어려움 Medical, IoT
Graph Variate 간 관계 학습 가능 UTS에 비적합 Urban, Finance
Audio 주파수 특성 표현 가능 Preprocessing 부담 Audio
Table 채널 및 시간 정보 함께 표현 순서 정보 유지 어려움 General


(2) 각 modality 기반 대표 모델

  • Number 기반: TimeGPT, TimesFM, Mantis, Chronos 등
  • Text 기반: Time-LLM, ChatTime, GPT4MTS, PromptCast 등
  • Image 기반: TimeSeriesExam, VisualTimeAnomaly, VisionTS, InsightMiner 등
  • Graph 기반: STG-LLM, GATGPT, UrbanGPT 등
  • Audio 기반: Voice2Series, AudioGPT, SpeechGPT
  • Table 기반: TabPFN, TableTime, TableGPT2


(3) MLLM 구조 요소

image-20250827103616712

image-20250827103632239

  • Modality Encoder: 이미지, 오디오 등 입력 전처리
  • Adapter: modality-specific → LLM input 정렬 (MLP, Q-Former 등)
  • LLM: 일반적인 텍스트 기반 대형 언어 모델 (GPT, LLaMA 등)


5. Conclusion

  • MLLMs는 기존 TS 분석 패러다임을 넘어서는 큰 기회를 제공.

  • 기존 LLM 기반 unimodal TS 연구를 넘어, cross-modal alignment, reasoning, generation까지 확장될 수 있음.

  • 향후 연구 제안:

    • Video 기반 시계열로의 확장
    • Multimodal reasoning 및 agent 구조 설계
    • Hallucination 완화 및 interpretability 개선
    • Multimodal fine-tuning 기술 확립

Categories: , ,

Updated: