MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering (arxiv 2025)

https://arxiv.org/pdf/2503.16858

1. Abstract

“Text와 TS 간의 관계”를 평가하는 기존 Benchmark:

\(\rightarrow\) Cross-modal reasoning을 충분히 다루지 못함!

MTBench

[Dataset]

금융 및 기상 도메인
(TS + 뉴스 Text) 쌍으로 구성된 최초의 Multi-task Multimodal Benchmark

[Task]

a) Forecasting
b) Semantic Trend Analysis
c) Technical Indicator Prediction
d) News-driven QA

LLM (GPT-4o, Claude, Gemini 등)은 여전히 causal 추론, 장기 의존성, 모달 간 통합에 약점을 보임 .

2. Introduction

(1) Motivation & Proposal

정량적 추세(TS)와 정성적 설명(Text)이 본질적으로 얽혀 있음.
기존 (TS & Text) Benchmark:
- Forecasting 중심 & Reasoning 부족!
Proposal: MTBench
- TS과 의미적으로 연결된 Text를 함께 제공 \(\rightarrow\) Reasoning task 평가 가능.

(1) 기존 multimodal benchmark (Time-MMD, ForecastBench, TimeseriesExam 등)

해상도/도메인/태스크 다양성 부족.

(2) 기존 금융 benchmark

대다수 단일 modality만 포함하거나 트위터 기반.

(3) 기존 날씨 benchmark

Numerical 중심이며 text reasoning은 부족.

\(\rightarrow\) MTBench는 도메인 전문적 뉴스와 실제 TS을 시간적으로 정렬된 구조로 구성하여 이전 한계를 보완함 .

4. Methodology

(1) Dataset 구성

a) Finance

20만 개 금융 뉴스 URL 수집

→ GPT-4o로 category, sentiment, temporal label 등 tagging
TS은 뉴스에 언급된 종목의 주가 (5분 or 1시간 단위)로 수집.
Pair 총 20,000쌍 구성 (short/long-term forecast 각각)
Consistent vs Misaligned 뉴스로 나누어 모델의 판별 능력도 평가 가능

b) Weather

50개 공항 날씨 데이터 (GHCN-H, 2003~2020, 1시간 단위)
스톰 이벤트와 인근 공항 데이터 정렬 + LLM 기반 synthetic 뉴스 생성
총 2,000쌍 (각 스테이션당 40개)

(2) Task 구성

(a) Forecasting (Regression)

Finance: 7일 or 30일 입력 → 1일 or 7일 예측
Weather: 7일 or 14일 입력 → 1일 or 3일 예측

(b) Trend Analysis (Classification)

가격 변화율을 binning하여 3/5-class 예측

Finance: MACD, Bollinger Band 예측
Weather: 최고/최저/차이 예측

(d) News-driven QA

Correlation Prediction (3/5-class)
Multi-choice QA (News + TS 기반 reasoning)

5. Experiments

(1) Baseline Models

GPT-4o, Claude 3.5, Gemini 2.0, LLaMA3.1-8B, DeepSeek-Chat, OpenAI-o1

(2) 주요 결과 요약

a) Forecasting

Text 추가 시 …

평균 9.78% (finance), 6.63% (weather) 성능 향상
- 장기 예측은 모든 모델에서 성능 저하됨
LLM은 종종 출력 길이 제약을 정확히 따르지 못함

b) Trend Prediction

과거 추세 분석 > 미래 추세 예측 (정확도 차이 큼)
Text 추가 시 28개 중 25개 case에서 정확도 향상
회고 분석에서는 간혹 성능 하락 (text 활용 실패)

c) Indicator Prediction

Text는 특히 Bollinger Band에서 도움이 됨
OpenAI-o1 모델이 대부분 가장 낮은 MSE 기록

d) News-driven QA

30일 long-term 설정이 7일보다 오히려 더 쉬움
MCQA에서는 Claude, DeepSeek이 가장 높은 정확도 달성
모델들은 대부분 긍정적인 correlation bias를 보임 → 약하거나 음의 상관관계는 과소 인식

6. Conclusion

MTBench는 Text-TS 통합 reasoning 능력을 평가할 수 있는 최초의 대규모 Benchmark.
기존 모델은 surface-level task에는 강하지만 장기 추론, 인과 해석, 다중 모달 통합에 여전히 한계 존재

Twitter Facebook LinkedIn

MTBench; A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering

Seunghan Lee

MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering (arxiv 2025)

1. Abstract

MTBench

2. Introduction

(1) Motivation & Proposal

4. Methodology

(1) Dataset 구성

a) Finance

b) Weather

(2) Task 구성

5. Experiments

(1) Baseline Models

(2) 주요 결과 요약

a) Forecasting

b) Trend Prediction

c) Indicator Prediction

d) News-driven QA

6. Conclusion

You May Also Enjoy

MTBench; A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering

Seunghan Lee

MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering (arxiv 2025)

1. Abstract

MTBench

2. Introduction

(1) Motivation & Proposal

3. Related Works

4. Methodology

(1) Dataset 구성

a) Finance

b) Weather

(2) Task 구성

5. Experiments

(1) Baseline Models

(2) 주요 결과 요약

a) Forecasting

b) Trend Prediction

c) Indicator Prediction

d) News-driven QA

6. Conclusion

You May Also Enjoy