TimeOmni-1: Incentivizing Complex Reasoning with TS in Large Language Models

Abstract

(1) 연구 배경: Multimodal TS의 패러다임 변화

Pattern analytics → TS understanding and reasoning


문제점

  • (1) 기존 multimodal TS dataset은
    • Surface alignment 수준
    • 단순 question answering (QA)
  • (2) Genuine reasoning을 요구하지 않음


$\rightarrow$ 진짜 TS reasoning을 요구하는 well-defined task가 부족하다!!


(2) 핵심 문제

두 가지 병목

  • (1) Reasoning을 명확히 정의한 task 부재
  • (2) High-quality data 부족

$\rightarrow$ TS Reasoning Models (TSRMs) 발전이 제한


(3) Proposal

a) TSR-Suite

TS Reasoning Suite (TSR-Suite) 벤치마크

  • TS reasoning을 명확히 구조화
  • 평가 + 학습 모두 가능하게

  • 4개의 Atomic Task


3가지 fundamental capability를 포괄

  • (1) Perception

    • Scenario understanding

    • Causality discovery

    • 한 줄 요약: TS 상황을 해석하고 원인-결과 구조를 파악하는 능력

  • (2) Extrapolation
    • Event-aware forecasting
    • 단순 예측이 아니라, event를 고려한 future inference
  • (3) Decision-making

    • Perception + Extrapolation을 기반으로

    • Deliberation을 통해 의사결정 수행


Dataset 규모: 총 23K+ samples

  • 그 중 2.3K는 human-guided hierarchical annotation으로 정밀


Summary

  • Evaluation 전용 benchmark가 아님
  • Data pipeline + TSRM training까지 지원하는 첫 comprehensive suite


b) TimeOmni-1

TSR-Suite를 기반으로 TimeOmni-1을 제안

  • Diverse real-world TSR 문제를 해결하기 위한 최초의 unified reasoning model


학습 방식: Multi-stage training

  • Mixture of task scenarios
  • Novel reward functions
  • Tailored optimization



(4) Experimental Results

  • Strong out-of-distribution generalization
  • 높은 valid response rate

  • Causality discovery accuracy
    • TimeOmni-1: 64.0%
    • GPT-4.1: 35.9%
  • Event-aware forecasting valid response rate
    • GPT-4.1 대비 +6% 이상 증가


(5) Summary

TSR을 명확히 정의하고, 이를 위한 benchmark + training pipeline을 구축한 뒤, unified TSRM을 실제로 구현하고 검증했다.


1. Introduction

(1) Motvation

TS 이해는 단순 패턴 인식이 아니다!!

논문의 핵심 주장:

  • Real-world TS comprehension은,
    • 단순 pattern recognition을 넘어
    • multi-step, multi-hop reasoning을 요구!!


Example) 에너지 수요 스케줄링

  • Extreme weather 같은 external knowledge 통합
  • Causal mechanism 추론
  • Event-driven variation 예측
  • Downstream decision 지원

이 모두 필요


그러나 기존 TS 연구는 여전히 Pattern analytics & Forecasting 중심

복잡한 reasoning 요구를 충족하지 못함


(2) LLM은 왜 TS Reasoning에 약한가?

LLM은 다음 영역에서 강력한 multi-step reasoning 능력

  • Text
  • Code
  • Mathematics


그러나 TS reasoning은 거의 탐구되지 않음. 이유?

  • (1) Large-scale multimodal TS alignment 데이터 부족
  • (2) Instruction 데이터 부족
  • (3) Labeled chain-of-thought 데이터 부족

$\rightarrow$ 즉, pretraining 단계에서 TS reasoning을 학습할 기회가 없음.

(+ 실제로 GPT-4.1도 TS benchmark에서 한계를 보임)


(3) 기존 TS 모델의 한계

Time-MoE, Moirai:

  • Forecasting 특화
  • Generalized reasoning capability 부족


기존의 TSRM 연구:

  • Task별로 분리된 모델
  • Dataset별 독립 학습

  • Example) TimeMaster는 6 dataset에 대해 6개의 별도 모델 사용

​ $\rightarrow$ 이러한 fragmentation은 (1) capability transfer 방해 & (2) General-purpose TSRM 개발을 어렵게 만듦


(4) 핵심 병목 두 가지

TSRM 발전을 막는 두 가지 한계를 명확히 제시

  • (1) High-quality data scarcity

    • 기존 TSQA:
      • surface QA 수준
      • input context 부족
      • genuine reasoning depth 부족
    • TS reasoning task가 체계적으로 정의되지 않음
  • (2) Effective pathway 부재

    • 어떤 task가 실제로 reasoning을 요구하는지 명확하지 않음

    • cross-task reasoning 학습 전략 부재

    • validated training pipeline 부재


(5) Proposal

RQ) LLM이 TS에서 genuine reasoning을 수행하도록 어떻게 구조적으로 incentivize할 것인가?


a) TSR-Suite

데이터 부족 문제 해결을 위해 두 가지 원칙을 제시

  • 원칙 1: superficial pattern matching이 아니라 multi-step reasoning chain을 요구해야 함
  • 원칙 2: context sufficiency 보장 & ambiguity 제거


이를 기반으로…

  • 4 atomic tasks 정의
  • 3 fundamental capabilities 구조화


3 Fundamental Capabilities

  • a) Perception

    • Scenario understanding

    • Causal discovery

    • 핵심 temporal pattern 인식

  • b) Extrapolation

    • Event-aware forecasting

    • Future trend 및 Anomaly 예측

  • c) Decision-making

    • Perception + extrapolation 기반

    • Adaptive action 지원


b) TimeOmni-1

핵심 전제) Effective TSR requires internalizing temporal priors!!


Two-stage

  • Stage 1: SFT
  • Stage 2: RL


Stage 1: SFT

  • TSR-Suite 기반
  • Human-guided reasoning trace 사용
  • Temporal prior 주입


Stage 2: RL

  • Novel task-grounded reward 설계
  • Policy optimization 수행
  • Genuine reasoning 강화


Joint Training

세 capability가 complementary facet임을 검증하기 위해

  • 모든 task를 single unified model에 통합
  • joint training 수행


8️⃣ Contributions 요약

1. TSR-SUITE

  • 4 atomic tasks
  • 3 capabilities
  • 23K+ samples
  • 2.3K human-guided hierarchical annotation

evaluation + training pipeline 모두 지원


2. TIMEOMNI-1

  • 첫 generalized TSRM

  • two-stage curriculum:

    • SFT → temporal priors
    • RL → robust reasoning

📌 Introduction의 핵심 메시지

Introduction은 다음 논리 구조를 가집니다:

  1. Real-world TS는 reasoning을 요구한다
  2. LLM과 TS 모델 모두 이 능력이 부족하다
  3. 데이터와 training pathway가 없다
  4. TSR-SUITE로 reasoning을 구조화한다
  5. TIMEOMNI-1으로 이를 실제 구현한다

다음이라고 입력하면

👉 다음 섹션으로 넘어가겠습니다.

좋습니다.

Related Works를 논문의 구도에 맞춰 구조적으로 정리하겠습니다.

이 섹션은 크게 두 부분으로 나뉩니다:

  1. Large TS Models
  2. Reasoning with Large Language Models

🔹 Related Works 정리


1️⃣ Large TS Models

이 부분은 기존 TS 모델 계열을 정리하고,

본 논문의 위치를 명확히 하는 역할을 합니다.


(1) 초기 단계: Zero-shot 중심 접근

초기 연구의 목표는:

large-scale TS 데이터가 부족한 상황에서

zero-shot generalization 확보

대표 방향:

  • LLM의 generalization 능력을 TS로 transfer
  • 예: Time-LLM

핵심 특징:

  • LLM 기반
  • domain-specific limitation 완화 시도
  • 아직 reasoning 중심은 아님

(2) TS Foundation Models (TSFMs)

대규모 TS 데이터가 확보되면서 등장한 mainstream 접근:

  • scratch에서 TS foundation model 학습

특징:

  • zero-shot 성능 개선
  • 대규모 데이터 기반 학습
  • forecasting 중심

한계:

  • multi-task capability 부족
  • multimodal capability 부족
  • reasoning capability 부족

(3) Multimodal & Reasoning 모델 등장 이후

Multimodal model과 reasoning-centric model이 등장하면서:

TS × LLM의 교차 영역이 다시 주목받기 시작

이후 접근은 두 그룹으로 나뉩니다.


(4) TS Language Models (TSLMs)

정의:

language modeling paradigm을 temporal data에 적용

특징:

  • supervised pattern fitting
  • QA 중심
  • reasoning 미포함

즉,

  • pattern recognition 확장
  • genuine reasoning은 아님

(5) TS Reasoning Models (TSRMs)

이 계열은 보다 최근 시도입니다.

차별점:

  • Reinforcement Learning 활용
  • pattern matching을 넘어 reasoning 학습 시도
  • explicit reasoning chain 제공
  • step-by-step explanation 생성

장점:

  • interpretability 증가
  • trustworthiness 향상

그러나 한계

논문은 이 분야가 아직 초기 단계라고 지적합니다:

  • reasoning 정의가 모호함
  • QA dataset 품질 낮음
  • 대부분 single-task 실험
  • R1-paradigm에 제한됨
  • general-purpose TSR framework 부재

즉,

LLM에 해당하는 수준의 generalized TSRM은 아직 존재하지 않음.


2️⃣ Reasoning with Large Language Models

이 부분은 LLM reasoning 연구 흐름을 정리합니다.


(1) LLM의 multi-step reasoning 능력

LLM은 다음에서 강력한 성능을 보임:

  • math
  • code
  • translation
  • multimodal reasoning

Chain-of-Thought 기법이 중요한 역할을 수행.


(2) 문제: Reasoning error propagation

문제점:

  • reasoning 과정 중 오류 전파
  • final answer degradation

(3) 해결 시도

Step-level reward (Lightman et al.)

  • reasoning 단계별 reward 설계
  • data construction + fine-tuning에 적용

DeepSeek-R1-Zero

  • format + final answer reward만으로 RL 수행
  • reasoning 능력 개선 가능성 입증

이 접근은:

  • math
  • code
  • translation
  • multimodal

등으로 확장됨.


(4) TS에서의 공백

그러나:

LLM-based reasoning for TS는

여전히 data scarcity 때문에 거의 연구되지 않음.


📌 Related Works의 핵심 메시지

이 섹션은 다음을 명확히 합니다:

  1. TS foundation model은 forecasting 중심이다
  2. 기존 TSLM은 reasoning이 없다
  3. TSRM은 아직 초기 단계다
  4. LLM reasoning은 발전했지만 TS에는 적용되지 않았다
  5. 따라서 general-purpose TSRM은 여전히 공백 상태다

즉, 본 논문은:

TSFMs와 LLM reasoning을 연결하여

general-purpose TSRM을 구축하려는 시도

라는 위치에 놓입니다.


다음이라고 입력하면

👉 다음 섹션으로 넘어가겠습니다.

Updated: