TimeOmni-1: Incentivizing Complex Reasoning with TS in Large Language Models

Abstract

(1) 연구 배경: Multimodal TS의 패러다임 변화

Pattern analytics → TS understanding and reasoning

문제점

(1) 기존 multimodal TS dataset은
- Surface alignment 수준
- 단순 question answering (QA)
(2) Genuine reasoning을 요구하지 않음

$\rightarrow$ 진짜 TS reasoning을 요구하는 well-defined task가 부족하다!!

(2) 핵심 문제

두 가지 병목

(1) Reasoning을 명확히 정의한 task 부재
(2) High-quality data 부족

$\rightarrow$ TS Reasoning Models (TSRMs) 발전이 제한

(3) Proposal

a) TSR-Suite

TS Reasoning Suite (TSR-Suite) 벤치마크

TS reasoning을 명확히 구조화
평가 + 학습 모두 가능하게
4개의 Atomic Task

3가지 fundamental capability를 포괄

(1) Perception
- Scenario understanding
- Causality discovery
- 한 줄 요약: TS 상황을 해석하고 원인-결과 구조를 파악하는 능력
(2) Extrapolation
- Event-aware forecasting
- 단순 예측이 아니라, event를 고려한 future inference
(3) Decision-making
- Perception + Extrapolation을 기반으로
- Deliberation을 통해 의사결정 수행

Dataset 규모: 총 23K+ samples

그 중 2.3K는 human-guided hierarchical annotation으로 정밀

Summary

Evaluation 전용 benchmark가 아님
Data pipeline + TSRM training까지 지원하는 첫 comprehensive suite

b) TimeOmni-1

TSR-Suite를 기반으로 TimeOmni-1을 제안

Diverse real-world TSR 문제를 해결하기 위한 최초의 unified reasoning model

학습 방식: Multi-stage training

Mixture of task scenarios
Novel reward functions
Tailored optimization

(4) Experimental Results

Strong out-of-distribution generalization
높은 valid response rate
Causality discovery accuracy
- TimeOmni-1: 64.0%
- GPT-4.1: 35.9%
Event-aware forecasting valid response rate
- GPT-4.1 대비 +6% 이상 증가

(5) Summary

TSR을 명확히 정의하고, 이를 위한 benchmark + training pipeline을 구축한 뒤, unified TSRM을 실제로 구현하고 검증했다.

1. Introduction

(1) Motvation

TS 이해는 단순 패턴 인식이 아니다!!

논문의 핵심 주장:

Real-world TS comprehension은,
- 단순 pattern recognition을 넘어
- multi-step, multi-hop reasoning을 요구!!

Example) 에너지 수요 스케줄링

Extreme weather 같은 external knowledge 통합
Causal mechanism 추론
Event-driven variation 예측
Downstream decision 지원

이 모두 필요

그러나 기존 TS 연구는 여전히 Pattern analytics & Forecasting 중심

→ 복잡한 reasoning 요구를 충족하지 못함

(2) LLM은 왜 TS Reasoning에 약한가?

LLM은 다음 영역에서 강력한 multi-step reasoning 능력

Text
Code
Mathematics

그러나 TS reasoning은 거의 탐구되지 않음. 이유?

(1) Large-scale multimodal TS alignment 데이터 부족
(2) Instruction 데이터 부족
(3) Labeled chain-of-thought 데이터 부족

$\rightarrow$ 즉, pretraining 단계에서 TS reasoning을 학습할 기회가 없음.

(+ 실제로 GPT-4.1도 TS benchmark에서 한계를 보임)

(3) 기존 TS 모델의 한계

Time-MoE, Moirai:

Forecasting 특화
Generalized reasoning capability 부족

기존의 TSRM 연구:

Task별로 분리된 모델
Dataset별 독립 학습
Example) TimeMaster는 6 dataset에 대해 6개의 별도 모델 사용

$\rightarrow$ 이러한 fragmentation은 (1) capability transfer 방해 & (2) General-purpose TSRM 개발을 어렵게 만듦

(4) 핵심 병목 두 가지

TSRM 발전을 막는 두 가지 한계를 명확히 제시

(1) High-quality data scarcity
- 기존 TSQA:
  - surface QA 수준
  - input context 부족
  - genuine reasoning depth 부족
- TS reasoning task가 체계적으로 정의되지 않음
(2) Effective pathway 부재
- 어떤 task가 실제로 reasoning을 요구하는지 명확하지 않음
- cross-task reasoning 학습 전략 부재
- validated training pipeline 부재

(5) Proposal

RQ) LLM이 TS에서 genuine reasoning을 수행하도록 어떻게 구조적으로 incentivize할 것인가?

a) TSR-Suite

데이터 부족 문제 해결을 위해 두 가지 원칙을 제시

원칙 1: superficial pattern matching이 아니라 multi-step reasoning chain을 요구해야 함
원칙 2: context sufficiency 보장 & ambiguity 제거

이를 기반으로…

4 atomic tasks 정의
3 fundamental capabilities 구조화

3 Fundamental Capabilities

a) Perception
- Scenario understanding
- Causal discovery
- 핵심 temporal pattern 인식
b) Extrapolation
- Event-aware forecasting
- Future trend 및 Anomaly 예측
c) Decision-making
- Perception + extrapolation 기반
- Adaptive action 지원

b) TimeOmni-1

핵심 전제) Effective TSR requires internalizing temporal priors!!

Two-stage

Stage 1: SFT
Stage 2: RL

Stage 1: SFT

TSR-Suite 기반
Human-guided reasoning trace 사용
Temporal prior 주입

Stage 2: RL

Novel task-grounded reward 설계
Policy optimization 수행
Genuine reasoning 강화

Joint Training

세 capability가 complementary facet임을 검증하기 위해

모든 task를 single unified model에 통합
joint training 수행

8️⃣ Contributions 요약

1. TSR-SUITE

4 atomic tasks
3 capabilities
23K+ samples
2.3K human-guided hierarchical annotation

evaluation + training pipeline 모두 지원

2. TIMEOMNI-1

첫 generalized TSRM
two-stage curriculum:
- SFT → temporal priors
- RL → robust reasoning

📌 Introduction의 핵심 메시지

Introduction은 다음 논리 구조를 가집니다:

Real-world TS는 reasoning을 요구한다
LLM과 TS 모델 모두 이 능력이 부족하다
데이터와 training pathway가 없다
TSR-SUITE로 reasoning을 구조화한다
TIMEOMNI-1으로 이를 실제 구현한다

다음이라고 입력하면

👉 다음 섹션으로 넘어가겠습니다.

좋습니다.

Related Works를 논문의 구도에 맞춰 구조적으로 정리하겠습니다.

이 섹션은 크게 두 부분으로 나뉩니다:

Large TS Models
Reasoning with Large Language Models

1️⃣ Large TS Models

이 부분은 기존 TS 모델 계열을 정리하고,

본 논문의 위치를 명확히 하는 역할을 합니다.

(1) 초기 단계: Zero-shot 중심 접근

초기 연구의 목표는:

large-scale TS 데이터가 부족한 상황에서

zero-shot generalization 확보

대표 방향:

LLM의 generalization 능력을 TS로 transfer
예: Time-LLM

핵심 특징:

LLM 기반
domain-specific limitation 완화 시도
아직 reasoning 중심은 아님

(2) TS Foundation Models (TSFMs)

대규모 TS 데이터가 확보되면서 등장한 mainstream 접근:

scratch에서 TS foundation model 학습

특징:

zero-shot 성능 개선
대규모 데이터 기반 학습
forecasting 중심

한계:

multi-task capability 부족
multimodal capability 부족
reasoning capability 부족

(3) Multimodal & Reasoning 모델 등장 이후

Multimodal model과 reasoning-centric model이 등장하면서:

TS × LLM의 교차 영역이 다시 주목받기 시작

이후 접근은 두 그룹으로 나뉩니다.

(4) TS Language Models (TSLMs)

정의:

language modeling paradigm을 temporal data에 적용

특징:

supervised pattern fitting
QA 중심
reasoning 미포함

즉,

pattern recognition 확장
genuine reasoning은 아님

(5) TS Reasoning Models (TSRMs)

이 계열은 보다 최근 시도입니다.

차별점:

Reinforcement Learning 활용
pattern matching을 넘어 reasoning 학습 시도
explicit reasoning chain 제공
step-by-step explanation 생성

장점:

interpretability 증가
trustworthiness 향상

그러나 한계

논문은 이 분야가 아직 초기 단계라고 지적합니다:

reasoning 정의가 모호함
QA dataset 품질 낮음
대부분 single-task 실험
R1-paradigm에 제한됨
general-purpose TSR framework 부재

즉,

LLM에 해당하는 수준의 generalized TSRM은 아직 존재하지 않음.

2️⃣ Reasoning with Large Language Models

이 부분은 LLM reasoning 연구 흐름을 정리합니다.

(1) LLM의 multi-step reasoning 능력

LLM은 다음에서 강력한 성능을 보임:

math
code
translation
multimodal reasoning

Chain-of-Thought 기법이 중요한 역할을 수행.

(2) 문제: Reasoning error propagation

문제점:

reasoning 과정 중 오류 전파
final answer degradation

(3) 해결 시도

Step-level reward (Lightman et al.)

reasoning 단계별 reward 설계
data construction + fine-tuning에 적용

DeepSeek-R1-Zero

format + final answer reward만으로 RL 수행
reasoning 능력 개선 가능성 입증

이 접근은:

math
code
translation
multimodal

등으로 확장됨.

(4) TS에서의 공백

그러나:

LLM-based reasoning for TS는

여전히 data scarcity 때문에 거의 연구되지 않음.

이 섹션은 다음을 명확히 합니다:

TS foundation model은 forecasting 중심이다
기존 TSLM은 reasoning이 없다
TSRM은 아직 초기 단계다
LLM reasoning은 발전했지만 TS에는 적용되지 않았다
따라서 general-purpose TSRM은 여전히 공백 상태다

즉, 본 논문은:

TSFMs와 LLM reasoning을 연결하여

general-purpose TSRM을 구축하려는 시도

라는 위치에 놓입니다.

다음이라고 입력하면

👉 다음 섹션으로 넘어가겠습니다.

Twitter Facebook LinkedIn

Timeomni

TimeOmni-1: Incentivizing Complex Reasoning with TS in Large Language Models

Seunghan Lee

TimeOmni-1: Incentivizing Complex Reasoning with TS in Large Language Models

Abstract

(1) 연구 배경: Multimodal TS의 패러다임 변화

(2) 핵심 문제

(3) Proposal

a) TSR-Suite

b) TimeOmni-1

(4) Experimental Results

(5) Summary

1. Introduction

(1) Motvation

(2) LLM은 왜 TS Reasoning에 약한가?

(3) 기존 TS 모델의 한계

(4) 핵심 병목 두 가지

(5) Proposal

a) TSR-Suite

b) TimeOmni-1

8️⃣ Contributions 요약

1. TSR-SUITE

2. TIMEOMNI-1

📌 Introduction의 핵심 메시지

1️⃣ Large TS Models

(1) 초기 단계: Zero-shot 중심 접근

(2) TS Foundation Models (TSFMs)

(3) Multimodal & Reasoning 모델 등장 이후

(4) TS Language Models (TSLMs)

(5) TS Reasoning Models (TSRMs)

그러나 한계

2️⃣ Reasoning with Large Language Models

(1) LLM의 multi-step reasoning 능력

(2) 문제: Reasoning error propagation

(3) 해결 시도

Step-level reward (Lightman et al.)

DeepSeek-R1-Zero

(4) TS에서의 공백

You May Also Enjoy

Timeomni

TimeOmni-1: Incentivizing Complex Reasoning with TS in Large Language Models

Seunghan Lee

TimeOmni-1: Incentivizing Complex Reasoning with TS in Large Language Models

Abstract

(1) 연구 배경: Multimodal TS의 패러다임 변화

(2) 핵심 문제

(3) Proposal

a) TSR-Suite

b) TimeOmni-1

(4) Experimental Results

(5) Summary

1. Introduction

(1) Motvation

(2) LLM은 왜 TS Reasoning에 약한가?

(3) 기존 TS 모델의 한계

(4) 핵심 병목 두 가지

(5) Proposal

a) TSR-Suite

b) TimeOmni-1

8️⃣ Contributions 요약

1. TSR-SUITE

2. TIMEOMNI-1

📌 Introduction의 핵심 메시지

🔹 Related Works 정리

1️⃣ Large TS Models

(1) 초기 단계: Zero-shot 중심 접근

(2) TS Foundation Models (TSFMs)

(3) Multimodal & Reasoning 모델 등장 이후

(4) TS Language Models (TSLMs)

(5) TS Reasoning Models (TSRMs)

그러나 한계

2️⃣ Reasoning with Large Language Models

(1) LLM의 multi-step reasoning 능력

(2) 문제: Reasoning error propagation

(3) 해결 시도

Step-level reward (Lightman et al.)

DeepSeek-R1-Zero

(4) TS에서의 공백

📌 Related Works의 핵심 메시지

You May Also Enjoy