Chronos-2: From Univariate to Universal Forecasting

https://arxiv.org/pdf/2510.15821

Abstract

TSFM은 (task-specific training 없이도) inference-only forecasting을 가능하게 함
기존 TSFM: Univariate forecasting에 집중
Chronos-2:
- 세 가지 모두 가능
  - a) Univariate
  - b) Multivariate
  - c) Covariate-informed
- Zero-shot으로 처리 가능한 Universal forecasting model
핵심: Group attention
- 여러 TS 간 Information sharing을 가능하게 함
- 하나의 group은 다음을 의미할 수 있음
  - 관련된 여러 series 집합
  - MTS의 variates
  - Target과 covariates의 결합
- 이를 통해 In-context learning (ICL)이 효과적으로 작동함
Pretraining Dataset
- Real dataset (X)
- Synthetic datasets (O)
- Univariate series에 다양한 Multivariate structure를 인위적으로 부여
성능 평가
- fev-bench, GIFT-Eval, Chronos Benchmark II에서 SoTA
- 특히 fev-bench에서 강점이 두드러짐
  - Multivariate
  - Covariate-informed forecasting 중심 벤치마크

1. Introduction

(1) Pretrained TSFM

(1) 개별 TS마다 학습하는 Local models
(2) 데이터셋마다 학습하는 Task-specific models

→ (1) & (2) 하나의 모델을 대규모 데이터로 한 번 학습 후 다양한 문제에 적용 가능
(3) Pretrained 모델의 장점
- Forecasting pipeline 단순화
- 매번 학습할 필요 없음
- 많은 경우 task-specific 모델과 동등하거나 더 높은 정확도 달성

(2) Limitation of TSFM

대부분이 Univariate forecasting만 지원

실제 환경에서는

Multivariate forecasting
Covariate-informed forecasting

Universal pretrained model이 어려운 이유?

(1) Architecture 문제
- Task마다 변수 개수와 의미가 다름
- 변수 간 상호작용을 사전에 정의할 수 없음
- 모델이 context로부터 관계를 추론해야 함
(2) Data 문제
- Multivariate 구조와 informative covariate를 포함한 고품질 데이터가 부족함

(3) Proposal: Chronos-2

Chronos-2

Univariate, Multivariate, Covariate-informed forecasting을 모두 지원
Zero-shot으로 동작

주요 특징

In-context learning (ICL) 기반
Past-only covariate와 future-known covariate 모두 처리 가능
Real-valued 및 categorical covariate 모두 지원

ICL의 추가 효과

Univariate forecasting에서도 Cross-learning 발생
배치 내 여러 TS 간 정보 공유를 통해 정확도 향상

핵심 메커니즘: Group attention

Group은 다음을 모두 의미할 수 있음
- 관련된 여러 TS
- MTS의 variates
- Target과 covariates의 조합
단순 concat 방식이 아닌
- Batch axis를 통한 정보 공유
- Variate 수 증가에도 잘 확장됨

Training strategy

실제 multivariate 데이터에 의존하지 않음
Univariate generator에서 샘플링한 series에
- Synthetic multivariate structure를 부여
이를 통해 ICL 능력을 학습

실험 결과

fev-bench, GIFT-Eval, Chronos Benchmark II에서 SOTA 달성
fev-bench 전 범주에서 baseline 대비 우수
특히 Covariate-informed task에서 가장 큰 성능 향상

효율성

단일 중급 GPU (NVIDIA A10G)에서 실행 가능
초당 약 300 TS 처리

(1) Background

Notation

[Input] $\mathbf{Y}_{1:T} = [y_1, \ldots, y_T]$.
- $y_t \in \mathbb{R}^D$.
- Univariate: $D = 1$
- Multivariate: $D > 1$
[Target] $\mathbf{Y}_{T+1:T+H}$.
[Covariates (Exogenous Variables)] $\mathbf{X}_{1:T+H} = [x_1, \ldots, x_{T+H}]$:
- $x_t \in \mathbb{R}^M$.
- 예측을 보조하는 추가 정보
- 과거 시점 t \le T와 미래 시점 t > T 모두 포함 가능

Forecasting 유형

Point forecasting
Probabilistic forecasting

Summary

$P(\mathbf{Y}_{T+1:T+H} \mid \mathbf{Y}_{1:T}, \mathbf{X}_{1:T+H})$.

기존 Forecasting 방법의 구분

a) Local models
- 각 TS마다 개별 파라미터를 학습
- e.g.,) ARIMA, Exponential Smoothing
- 장점: 단순, 해석 용이
- 한계:
  - 데이터가 많아질수록 확장성 부족
  - TS 간 정보 공유 불가
b) Global models
- 하나의 모델이 데이터셋 내 모든 TS의 파라미터를 공유
- DL 기반 접근이 주류
- 대표 예시: RNN, Transformer 등의 구조
c) Pretrained TSFMs
- 대규모 TS 데이터로 한 번 학습 후 zero-shot 사용
- LLM과 유사한 패러다임
  - task별 재학습 불필요
  - 다양한 데이터셋에 일반화
- 초기 시도: LLM을 TS에 직접 적용
- 최근 추세
  - LLM 구조를 차용
  - 학습은 TS 데이터로만 수행
- 한계: 대부분 Univariate forecasting에만 특화

대표적인 TSFMs

Moirai-1
- Multivariate 입력 지원
- 내부적으로 flatten 처리
- 고차원 변수에서 확장성 제한
Toto
- Cross-variate attention 도입
- Known / categorical covariate 미지원
COSMIC
- Synthetic augmentation으로 covariate 활용
- Target은 univariate로 제한
TabPFN-TS
- Known covariate 사용 가능
- Past-only covariate, multivariate target 미지원

Summary

대부분 univariate 대비 성능 개선이 제한적
Zero-shot 환경에서
- multivariate
- covariate
  
  를 동시에 잘 처리하는 모델은 여전히 부족

(3) Chronos-2의 포지션

문제 인식: Multivariate + covariate를 zero-shot으로 통합 처리하는 것이 미해결 문제
제안: Group Attention Mechanism
- 관련된 TS들을 group 단위로 묶어 처리
- Univariate / Multivariate / Covariate-informed 설정을
  - 동일한 아키텍처
  - 추가 수정 없이 처리
- 기존 cross-attention 및 cross-learning 아이디어를 일반화

3. Chronos-2

(1) Scaling and Tokenization

핵심 목표

(1) Univariate / Multivariate / Covariate-informed forecasting을 하나의 입력 표현으로 통합
Zero-shot 환경에서도
- 스케일 차이
- 결측
- 미래에 알려진 covariate
를 안정적으로 처리

a) Input Construction

Historical input

\[V = [v_1, \dots, v_T], \quad v_t \in \mathbb{R}^{D+M}\]
$y_t$ (target) with $D$ dim
$x_t$ (covariates) with $M$ dim

Future input

\[W = [w_{T+1}, \dots, w_{T+H}], \quad w_t \in \mathbb{R}^{D+M}\]
known future covariates만 유지
target 및 past-only covariates는 missing 처리

Summary: Target과 covariate를 동일한 차원에서 다룸

b) Categorical Covariates

Univariate target

Target encoding 사용
- category를 target과의 통계적 관계 기반 수치로 변환

Multivariate target

Ordinal encoding 사용
- category마다 고유 integer 할당
목적
- 다양한 categorical covariate를 zero-shot 환경에서도 안전하게 처리

c) Robust Scaling

문제의식: 금융, 에너지, 리테일 데이터는 아래의 issue!

scale 불균형
outlier

Procedure

Step 1) Standardization
- historical context 기준
Step 2) sinh⁻¹ 변환
- log-like 변환
- extreme value 영향 완화
- $\tilde v_{t,d} = \sinh^{-1}\left(\frac{v_{t,d} - \mu_d}{\sigma_d}\right), \quad \tilde w_{t,d} = \sinh^{-1}\left(\frac{w_{t,d} - \mu_d}{\sigma_d}\right)$.

Results

scale 안정화
outlier 민감도 감소
학습 및 추론 안정성 향상

d) Meta Features

각 차원 $d$에 대해 독립적으로 처리, 추가 정보 부착
Time index
상대적 위치 인코딩
- patch 기반 입력에서 temporal order 명시적 제공
Mask
- 관측 여부 표시
- 역할
  - historical missing value 식별
  - future-known covariate 구분
처리 방식
- missing value는 0으로 치환
- mask가 정보 손실 방지

e) Patching and Embedding

PatchTST 계열 전략 채택
- patch length $P$
- non-overlapping
Context와 Future를 분리해서 patching
Procedures
- Step 1) Patch 구성: p-번째 patch
  - 입력값 patch: $\bar{u}_p$
  - 시간 index patch: $\bar{j}_p$
  - mask patch: $\bar{m}_p$
  - 세 요소를 concatenate
- Step 2) Patch Embedding
  - Residual network $f_\phi$
  - $h_p = f_\phi^{\text{in}} \big( [\bar{u}_p, \bar{j}_p, \bar{m}_p] \big), \quad f_\phi^{\text{in}} : \mathbb{R}^{3P} \rightarrow \mathbb{R}^{D_{\text{model}}}$.
의미
- raw value
- temporal position
- observability
  
  를 하나의 토큰 표현으로 통합
REG Token
- context patch와 future patch 사이에 삽입
- 역할
  - separator token
  - attention sink
- 효과
  - context 정보를 안정적으로 집약
  - future forecasting 시
    - 불필요한 attention 확산 방지
    - inference 안정성 향상

(2) Architecture

전체 구조

Encoder-only: T5 기반
핵심 아이디어
- Time Attention + Group Attention을 교차적으로 쌓아
- In-context learning(ICL)을 구조적으로 구현

a) Time Attention

시간 축(temporal axis) 기준 self-attention
동일한 input dimension 내에서
- patch 간 temporal dependency 집계
Position Encoding
- (X) T5의 relative position embedding
- (O) RoPE (Rotary Position Embedding)

b) Group Attention

목적
- 같은 time index의 patch들 간 정보 공유
- (시간 축이 아니라) series / variate / covariate 축에서 attention
작동 방식
- 동일한 patch index에서
  - 같은 group ID를 가진 TS들만 attention
Positional embedding (X)
- 이유: group 내부 TS에는 자연스러운 순서가 없음

Group의 정의 (task-dependent)

Group은 “서로 정보를 공유해야 할 대상들의 집합”

상황에 따라 다르다!

Single TS
- Univariate forecasting
- 다른 TS 참조 없음
Related TS set
- 동일 source / metadata
- Cross-learning, Few-shot forecasting
- Cold-start 상황에 특히 유리
Variates with shared dynamics
- multivariate forecasting
- 여러 변수의 공동 예측
Targets + covariates
- 가장 일반적인 설정
- target
- past-only covariates
- known future covariates

Group Attention 구현 디테일

Batch size: $B$
Group ID
- 길이 $B$의 벡터 $g$
내부 처리
- Group ID → 2D attention mask
- 서로 다른 group 간 attention 완전 차단
결과
- Task-specific architecture 변경 없이
- 다양한 forecasting setting 지원

c) Quantile Head

Input
- Future patch embeddings
- Target dimension $D$만 사용
Output
- Direct multi-step & quantile forecast
출력 형태
- $\hat{Z} \in \mathbb{R}^{H \times D \times \mid \mathcal{Q} \mid}$.
- Quantile set: $\mathcal{Q} = \{0.01, 0.05, 0.1, \dots, 0.9, 0.95, 0.99\}$
  - 총 21 quantiles
  - 기존 pretrained TS 모델(보통 9개 quantile)보다 조밀

(3-1) Training Overview

학습 설정 개요

하나의 Model, 여러 forecasting task를 동시에 학습
Batch 구성 시, 다음 task들을 혼합:
- (1) Univariate forecasting
- (2) Multivariate forecasting
  - past-only covariates 포함
- (3) Multivariate forecasting with known covariates

각 task의 정의

타겟 차원 수: $D$
Covariate 수: $M$
각 dimension의 역할:
- Target
- Past-only covariate
- Known future covariate

Task 식별 방식 (암묵적 task inference)

각 task에 고유한 group ID 할당
모델은 다음 정보를 통해 task 구조를 추론:
- (1) Group ID $g$
- (2) Future input $W$의 관측 여부
결과
- Task-specific head나 architecture 변경 X
- Forecasting setup을 in-context로 인식

Loss function: Quantile Regression

사용 목적
- probabilistic forecasting
- 다중 quantile 직접 예측
손실 함수
- $$\ell_q(z, \hat{z}_q)
  
  q \cdot \max(z - \hat{z}_q, 0) + (1 - q) \cdot \max(\hat{z}_q - z, 0), \quad q \in \mathcal{Q}$$.
  - $\hat{z}_q$: quantile q에서의 예측값
  - $z$: Eq. (1)로 정규화된 실제 target 값

Loss 계산 방식

a) Forecast horizon 전체에 대해 평균
b) Batch 내 모든 item에 대해 평균
c) Target dimension에 대해서만 계산
(다음 항목은 loss에서 제외)
- known covariates
- missing target values

(3-2) Training Details

a) Output Patch Sampling

의미? 각 batch마다, 출력 patch 수를 랜덤 샘플링
효과
- 다양한 horizon 길이에 대한 일반화
- 특정 horizon에 과적합 방지

b) Two-Stage Training Strategy

Stage 1: Base Pretraining

최대 context length: 2048
최대 output patch 수: 작게 제한
목적
- 기본적인 TS 패턴 학습
- 안정적인 초기 수렴

Stage 2: Long-context & Long-horizon Training

context length 확장: $2048 \rightarrow 8192$
최대 output patch 수 증가
효과
- 장기 seasonal pattern 학습 (고빈도 TS)
- heuristic 없이 장기 예측 가능

Summary

Chronos-2는
- task를 명시적으로 알려주지 않아도
- group ID + mask 구조로
  
  forecasting setup을 스스로 추론
학습 단계에서부터
- universal forecasting 능력을 강제
긴 context + multi-patch output
- Real-world long-horizon forecasting에 직접 대응

(4) Inference

a) Denormalization

De-normalization

Model output: Normalized quantile prediction $\hat{z}_{t,d}^q$
Denormalization
- $\hat{y}_{t,d}^q = \mu_d + \sigma_d \cdot \sinh(\hat{z}_{t,d}^q)$.t

Inference 시 grouping의 역할

Batch 내 multiple TS를 group ID로 묶는 방식만 바꾸어
- 서로 다른 forecasting task를 동일 모델로 해결
Group attention이 어떤 series 간에 정보 공유를 할지 결정

b) Forecasting Modes via Group IDs

(1) Univariate forecasting

Batch의 각 item에 서로 다른 group ID 할당
결과
- 각 TS는 완전히 독립적으로 처리
- cross-series 정보 공유 없음

(2) Multivariate forecasting

같은 MTS에 속한 variate들은 같은 group ID
서로 다른 MTS는 서로 다른 group ID
결과
- 동일 MTS 내 variate 간 dynamics 공유
- Multivariate dependency 학습 가능

(3) Forecasting with covariates

Target, past-only covariate, known covariate를 모두 같은 group ID로 묶음
Future input $W$
- Known covariate는 실제 future 값을 제공
결과
- 모델은 covariate를 활용하여 target 예측
- covariate에 대한 예측 출력은 무시

c) Additional Mode: Full Cross Learning

Full cross learning mode

Batch 내 모든 item에 동일한 group ID 할당
Target 여부나 covariate 여부와 무관
효과
- Batch 전체에서 정보 공유
- Joint prediction 수행
- Few-shot learning 및 domain shift 상황에서 특히 유용

4. Training Data

세 줄 요약

Chronos-2와 같은 Generalist TSFM에서는 architecture보다 training data가 더 결정적
기존 대규모 TS 데이터셋은 대부분 univariate에 치우쳐 있음
이를 보완하고 in-context learning 능력을 부여하기 위해 synthetic data를 대규모로 활용

(1) Univariate Data

두 가지로 구성

[1] Real-world datasets
[2] Synthetic datasets

[1] Real-world datasets

기존 Chronos (Ansari et al., 2024)
GIFT-Eval (Aksu et al., 2024)
사용된 전체 데이터셋은 Appendix Table 6에 정리됨

[2] Synthetic datasets

TSI (Trend, Seasonality, Irregularity)
- 서로 다른 trend, seasonality, irregularity 성분을 무작위로 조합
- 다양한 형태의 TS 패턴 생성
TCM (Temporal Causal Model)
- Temporal causal graph를 샘플링
- Autoregression을 통해 TS 생성
- Causal structure를 내포한 TS 생성이 목적
의도
- Univariate 패턴의 다양성 확보
- 실제 데이터 분포에 대한 과도한 의존 방지

(2) Multivariate Data

전부 synthetic data만 사용

핵심 개념: Multivariatizer

Step 1) Base univariate series 여러 개를 샘플링
Step 2) 그 사이에 의존성(dependency)을 인위적으로 부여

Step 1) Base univariate generators

AR models
ETS models
TSI
KernelSynth

Step 2) Multivariatizer 유형

Cotemporaneous multivariatizer
- 동일한 timestep에서 linear 또는 nonlinear transformation 적용
- instantaneous correlation 유도
Sequential multivariatizer
- 시간 축을 따라 dependency 유도
- lead–lag effects, cointegration 등 복잡한 multivariate 특성 생성

생성된 데이터의 활용

(1) Multivariate tasks
- 모든 variate를 prediction 대상으로 설정
(2) Covariate-informed tasks
- 일부 variate를 무작위로 known covariate로 지정
- Target과 covariate를 함께 포함한 forecasting 설정 구성

5. Experiments

Goal: Chronos-2의 성능을

대규모 benchmark
ICL 효과
실제 도메인 (energy, retail)
ablation 설정

에서 체계적으로 검증

구성

5.1 SoTAt 모델들과의 benchmark 비교
5.2 ICL 효과 분석 (univariate / multivariate / covariates)
5.3 Energy 및 retail case study
5.4 Ablation study
- Smaller model
- Synthetic-only training
- Long-context post-training 이전 모델

(1) Benchmark Results

a) Experimental Setup

모델: Chronos-2 base (120M)
Benchmarks
- a) fev-bench
- b) GIFT-Eval
- c) Chronos Benchmark II

b) Evaluation Metrics

Win rate $W$: Pairwise 비교에서 상대 모델을 이긴 비율
Skill score $S$: Seasonal Naive 대비 평균 성능 향상률

c) Results with `fev-bench`

fev-bench

100 forecasting tasks
covariate-informed task 포함
Chronos-2는 해당 데이터셋을 훈련 중 전혀 보지 않음

Metric: Scaled Quantile Loss (SQL)

Probabilistic forecasting 평가

결과: 모든 기존 foundation model 대비

win rate
skill score

에서 큰 폭으로 우수

d) Results with `GIFT-Eval`

GIFT-Eval

97 tasks
55 datasets
high-frequency + long-horizon forecasting 중심

Metrics:

Weighted Quantile Loss (WQL)
Mean Absolute Scaled Error (MASE)

결과

기존 최고 성능 모델(TiRex, TimesFM-2.5) 대비
- win rate
- skill score
모두에서 우수

Zero-shot 관련 주의

Pretraining corpus가
- 일부 dataset의 training split과는 partial overlap 존재
- test split과는 overlap 없음
Strictly zero-shot 결과
- Section 5.4 (synthetic-only 모델)에서 별도 분석

e) Results with `Chronos Benchmark II`

Chronos Benchmark II

27 tasks
평균 history length < 300
short-context 중심 benchmark

Metrics

Probabilistic: WQL
Point forecast: MASE

결과

모든 기존 모델 대비
- win rate
- skill score
에서 일관된 성능 우위

f) Summary

Chronos-2는

세 benchmark 모두에서
모든 경쟁 모델을 일관되게 능가

Chronos-Bolt 대비 큰 성능 향상

(1) Architectural design
(2) Synthetic multivariate training
(3) Group attention 기반 ICL

$\rightarrow$ 이 핵심 요인임을 실증적으로 확인

(2) Improvements with In-context Learning

Section 5.1
- full cross learning mode
- 즉, in-context learning (ICL) 활성화 상태
Section 5.2:
- 목적: ICL이 실제로 어디에서, 얼마나 성능 향상을 만드는지
- univariate inference 대비 효과를 분리해서 분석

Experimental Setup

비교 설정: (1) vs. (2)

(1) Chronos-2 with ICL
(2) Chronos-2 univariate inference
- Batch 내 각 time series를 독립적으로 예측
- Covariates 존재함에도 불구하고 무시

Subsets of fev-bench

Univariate subset
- 32 tasks
- single target & covariates 없음
Multivariate subset
- 26 tasks
- multiple targets & covariates 없음
Covariates subset
- 42 tasks
- past-only 또는 known covariates 포함

(3) Ablation Studies

Twitter Facebook LinkedIn

Chronos-2; From Univariate to Universal Forecasting

Seunghan Lee

Chronos-2: From Univariate to Universal Forecasting

Abstract

1. Introduction

(1) Pretrained TSFM

(2) Limitation of TSFM

(3) Proposal: Chronos-2

2. Background and Related Works

(1) Background

(2) Related Works

(3) Chronos-2의 포지션

3. Chronos-2

(1) Scaling and Tokenization

a) Input Construction

b) Categorical Covariates

c) Robust Scaling

d) Meta Features

e) Patching and Embedding

(2) Architecture

전체 구조

a) Time Attention

b) Group Attention

Group의 정의 (task-dependent)

Group Attention 구현 디테일

c) Quantile Head

(3-1) Training Overview

$$\ell_q(z, \hat{z}_q)

(3-2) Training Details

a) Output Patch Sampling

b) Two-Stage Training Strategy

Stage 1: Base Pretraining

Stage 2: Long-context & Long-horizon Training

Summary

(4) Inference

a) Denormalization

b) Forecasting Modes via Group IDs

c) Additional Mode: Full Cross Learning

4. Training Data

(1) Univariate Data

(2) Multivariate Data

5. Experiments

(1) Benchmark Results

a) Experimental Setup

b) Evaluation Metrics

c) Results with fev-bench

d) Results with GIFT-Eval

e) Results with Chronos Benchmark II

f) Summary

(2) Improvements with In-context Learning

Experimental Setup

(3) Ablation Studies

You May Also Enjoy

c) Results with `fev-bench`

d) Results with `GIFT-Eval`

e) Results with `Chronos Benchmark II`