TimeOmni-1: Incentivizing Complex Reasoning with TS in Large Language Models
Abstract
(1) 연구 배경: Multimodal TS의 패러다임 변화
Pattern analytics → TS understanding and reasoning
문제점
- (1) 기존 multimodal TS dataset은
- Surface alignment 수준
- 단순 question answering (QA)
- (2) Genuine reasoning을 요구하지 않음
$\rightarrow$ 진짜 TS reasoning을 요구하는 well-defined task가 부족하다!!
(2) 핵심 문제
두 가지 병목
- (1) Reasoning을 명확히 정의한 task 부재
- (2) High-quality data 부족
$\rightarrow$ TS Reasoning Models (TSRMs) 발전이 제한
(3) Proposal
a) TSR-Suite
TS Reasoning Suite (TSR-Suite) 벤치마크
- TS reasoning을 명확히 구조화
-
평가 + 학습 모두 가능하게
- 4개의 Atomic Task
3가지 fundamental capability를 포괄
-
(1) Perception
-
Scenario understanding
-
Causality discovery
-
한 줄 요약: TS 상황을 해석하고 원인-결과 구조를 파악하는 능력
-
- (2) Extrapolation
- Event-aware forecasting
- 단순 예측이 아니라, event를 고려한 future inference
-
(3) Decision-making
-
Perception + Extrapolation을 기반으로
-
Deliberation을 통해 의사결정 수행
-
Dataset 규모: 총 23K+ samples
- 그 중 2.3K는 human-guided hierarchical annotation으로 정밀
Summary
- Evaluation 전용 benchmark가 아님
- Data pipeline + TSRM training까지 지원하는 첫 comprehensive suite
b) TimeOmni-1
TSR-Suite를 기반으로 TimeOmni-1을 제안
- Diverse real-world TSR 문제를 해결하기 위한 최초의 unified reasoning model
학습 방식: Multi-stage training
- Mixture of task scenarios
- Novel reward functions
- Tailored optimization
(4) Experimental Results
- Strong out-of-distribution generalization
-
높은 valid response rate
- Causality discovery accuracy
- TimeOmni-1: 64.0%
- GPT-4.1: 35.9%
- Event-aware forecasting valid response rate
- GPT-4.1 대비 +6% 이상 증가
(5) Summary
TSR을 명확히 정의하고, 이를 위한 benchmark + training pipeline을 구축한 뒤, unified TSRM을 실제로 구현하고 검증했다.
1. Introduction
(1) Motvation
TS 이해는 단순 패턴 인식이 아니다!!
논문의 핵심 주장:
- Real-world TS comprehension은,
- 단순 pattern recognition을 넘어
- multi-step, multi-hop reasoning을 요구!!
Example) 에너지 수요 스케줄링
- Extreme weather 같은 external knowledge 통합
- Causal mechanism 추론
- Event-driven variation 예측
- Downstream decision 지원
이 모두 필요
그러나 기존 TS 연구는 여전히 Pattern analytics & Forecasting 중심
→ 복잡한 reasoning 요구를 충족하지 못함
(2) LLM은 왜 TS Reasoning에 약한가?
LLM은 다음 영역에서 강력한 multi-step reasoning 능력
- Text
- Code
- Mathematics
그러나 TS reasoning은 거의 탐구되지 않음. 이유?
- (1) Large-scale multimodal TS alignment 데이터 부족
- (2) Instruction 데이터 부족
- (3) Labeled chain-of-thought 데이터 부족
$\rightarrow$ 즉, pretraining 단계에서 TS reasoning을 학습할 기회가 없음.
(+ 실제로 GPT-4.1도 TS benchmark에서 한계를 보임)
(3) 기존 TS 모델의 한계
Time-MoE, Moirai:
- Forecasting 특화
- Generalized reasoning capability 부족
기존의 TSRM 연구:
- Task별로 분리된 모델
-
Dataset별 독립 학습
- Example) TimeMaster는 6 dataset에 대해 6개의 별도 모델 사용
$\rightarrow$ 이러한 fragmentation은 (1) capability transfer 방해 & (2) General-purpose TSRM 개발을 어렵게 만듦
(4) 핵심 병목 두 가지
TSRM 발전을 막는 두 가지 한계를 명확히 제시
-
(1) High-quality data scarcity
- 기존 TSQA:
- surface QA 수준
- input context 부족
- genuine reasoning depth 부족
- TS reasoning task가 체계적으로 정의되지 않음
- 기존 TSQA:
-
(2) Effective pathway 부재
-
어떤 task가 실제로 reasoning을 요구하는지 명확하지 않음
-
cross-task reasoning 학습 전략 부재
-
validated training pipeline 부재
-
(5) Proposal
RQ) LLM이 TS에서 genuine reasoning을 수행하도록 어떻게 구조적으로 incentivize할 것인가?
a) TSR-Suite
데이터 부족 문제 해결을 위해 두 가지 원칙을 제시
- 원칙 1: superficial pattern matching이 아니라 multi-step reasoning chain을 요구해야 함
- 원칙 2: context sufficiency 보장 & ambiguity 제거
이를 기반으로…
- 4 atomic tasks 정의
- 3 fundamental capabilities 구조화
3 Fundamental Capabilities
-
a) Perception
-
Scenario understanding
-
Causal discovery
-
핵심 temporal pattern 인식
-
-
b) Extrapolation
-
Event-aware forecasting
-
Future trend 및 Anomaly 예측
-
-
c) Decision-making
-
Perception + extrapolation 기반
-
Adaptive action 지원
-
b) TimeOmni-1
핵심 전제) Effective TSR requires internalizing temporal priors!!
Two-stage
- Stage 1: SFT
- Stage 2: RL
Stage 1: SFT
- TSR-Suite 기반
- Human-guided reasoning trace 사용
- Temporal prior 주입
Stage 2: RL
- Novel task-grounded reward 설계
- Policy optimization 수행
- Genuine reasoning 강화
Joint Training
세 capability가 complementary facet임을 검증하기 위해
- 모든 task를 single unified model에 통합
- joint training 수행
8️⃣ Contributions 요약
1. TSR-SUITE
- 4 atomic tasks
- 3 capabilities
- 23K+ samples
- 2.3K human-guided hierarchical annotation
evaluation + training pipeline 모두 지원
2. TIMEOMNI-1
-
첫 generalized TSRM
-
two-stage curriculum:
- SFT → temporal priors
- RL → robust reasoning
📌 Introduction의 핵심 메시지
Introduction은 다음 논리 구조를 가집니다:
- Real-world TS는 reasoning을 요구한다
- LLM과 TS 모델 모두 이 능력이 부족하다
- 데이터와 training pathway가 없다
- TSR-SUITE로 reasoning을 구조화한다
- TIMEOMNI-1으로 이를 실제 구현한다
다음이라고 입력하면
👉 다음 섹션으로 넘어가겠습니다.
좋습니다.
Related Works를 논문의 구도에 맞춰 구조적으로 정리하겠습니다.
이 섹션은 크게 두 부분으로 나뉩니다:
- Large TS Models
- Reasoning with Large Language Models
🔹 Related Works 정리
1️⃣ Large TS Models
이 부분은 기존 TS 모델 계열을 정리하고,
본 논문의 위치를 명확히 하는 역할을 합니다.
(1) 초기 단계: Zero-shot 중심 접근
초기 연구의 목표는:
large-scale TS 데이터가 부족한 상황에서
zero-shot generalization 확보
대표 방향:
- LLM의 generalization 능력을 TS로 transfer
- 예: Time-LLM
핵심 특징:
- LLM 기반
- domain-specific limitation 완화 시도
- 아직 reasoning 중심은 아님
(2) TS Foundation Models (TSFMs)
대규모 TS 데이터가 확보되면서 등장한 mainstream 접근:
- scratch에서 TS foundation model 학습
특징:
- zero-shot 성능 개선
- 대규모 데이터 기반 학습
- forecasting 중심
한계:
- multi-task capability 부족
- multimodal capability 부족
- reasoning capability 부족
(3) Multimodal & Reasoning 모델 등장 이후
Multimodal model과 reasoning-centric model이 등장하면서:
TS × LLM의 교차 영역이 다시 주목받기 시작
이후 접근은 두 그룹으로 나뉩니다.
(4) TS Language Models (TSLMs)
정의:
language modeling paradigm을 temporal data에 적용
특징:
- supervised pattern fitting
- QA 중심
- reasoning 미포함
즉,
- pattern recognition 확장
- genuine reasoning은 아님
(5) TS Reasoning Models (TSRMs)
이 계열은 보다 최근 시도입니다.
차별점:
- Reinforcement Learning 활용
- pattern matching을 넘어 reasoning 학습 시도
- explicit reasoning chain 제공
- step-by-step explanation 생성
장점:
- interpretability 증가
- trustworthiness 향상
그러나 한계
논문은 이 분야가 아직 초기 단계라고 지적합니다:
- reasoning 정의가 모호함
- QA dataset 품질 낮음
- 대부분 single-task 실험
- R1-paradigm에 제한됨
- general-purpose TSR framework 부재
즉,
LLM에 해당하는 수준의 generalized TSRM은 아직 존재하지 않음.
2️⃣ Reasoning with Large Language Models
이 부분은 LLM reasoning 연구 흐름을 정리합니다.
(1) LLM의 multi-step reasoning 능력
LLM은 다음에서 강력한 성능을 보임:
- math
- code
- translation
- multimodal reasoning
Chain-of-Thought 기법이 중요한 역할을 수행.
(2) 문제: Reasoning error propagation
문제점:
- reasoning 과정 중 오류 전파
- final answer degradation
(3) 해결 시도
Step-level reward (Lightman et al.)
- reasoning 단계별 reward 설계
- data construction + fine-tuning에 적용
DeepSeek-R1-Zero
- format + final answer reward만으로 RL 수행
- reasoning 능력 개선 가능성 입증
이 접근은:
- math
- code
- translation
- multimodal
등으로 확장됨.
(4) TS에서의 공백
그러나:
LLM-based reasoning for TS는
여전히 data scarcity 때문에 거의 연구되지 않음.
📌 Related Works의 핵심 메시지
이 섹션은 다음을 명확히 합니다:
- TS foundation model은 forecasting 중심이다
- 기존 TSLM은 reasoning이 없다
- TSRM은 아직 초기 단계다
- LLM reasoning은 발전했지만 TS에는 적용되지 않았다
- 따라서 general-purpose TSRM은 여전히 공백 상태다
즉, 본 논문은:
TSFMs와 LLM reasoning을 연결하여
general-purpose TSRM을 구축하려는 시도
라는 위치에 놓입니다.
다음이라고 입력하면
👉 다음 섹션으로 넘어가겠습니다.