AAA (All About AI)

2 minute read

Seunghan Lee

Seunghan Lee

Deep Learning, Data Science, Statistics

TempoGPT: Enhancing Time Series Reasoning via Quantizing Embedding (arxiv 2025)

인용 수: (2025-08-27 기준) 0회
링크: https://arxiv.org/pdf/2501.07335

1. Abstract

기존 TLM (Time-series Language Models)

(O) Trend 분석에는 성능이 좋지만
(X) 복잡한 reasoning task에선 성능 저하.

원인:

학습 데이터에 reasoning 과정이 포함되지 않음
TS는 정교한 tokenization이 없어, Text와 표현 방식이 불일치.

제안: TempoGPT

White-box 시스템 기반의 Multi-modal TS reasoning dataset 구성.
Temporal embedding을 정량화(quantization)하여 discrete token으로 변환.
Temporal + Text token을 공유 embedding layer로 처리.

Experiment

Reasoning task에서 state-of-the-art 성능 및 논리적 일관성 확보.
코드: https://github.com/zhanghaochuan20/TempoGPT

2. Introduction

(1) Motivation

TLM은 vision, audio 등에서 성공했지만 TS reasoning에는 제한적 성능

(특히, 물리 시스템과 변수 간 관계 추론은 어려움)
기존 Multi-modal TS는 대부분 단순 label만 존재

\(\rightarrow\) Reasoning 학습 불가

(2) Proposal

White-box system 기반 데이터 생성 (물리 시뮬레이터 활용).
Temporal quantization 기법을 통해 TS 정보를 discrete token으로 정제.
Token 간 표현 정합성을 맞춰 LLM의 reasoning 능력 활용 극대화.

.

(1) Time Series Language Models

초기) LLM을 forecasting/classification 등 단순 task에 사용.
중기) 이후 Prompt 기반 혹은 Alignment 기반 방법 등장.
최근) Trend, seasonality 등 기초 TS 특성 추출에는 성공

\(\rightarrow\) 그러나 복잡 reasoning에선 부진 !!

Vision 도메인 기반 alignment(BLIP-2, CLIP 등)를 차용한 시도.
TS은 tokenization이 없어 표현 일관성 부족 → LLM 활용에 한계.
일부 연구에서 quantization 도입 시도 있으나, 대부분 단순 예측 용도에 그침.

4. Methodology

White-box 전기 회로 시뮬레이터를 구성하여 6개 TS 변수를 생성:
- 두 개의 AC 전원, 세 개의 저항, 전류 등.
Rule-based + Human-in-the-loop 방식으로 label 생성.

총 5가지 reasoning task

Trend Analysis
Trend Forecast
Fault Judgement
Fault Diagnosis
Fault Analysis

Pretrain은 anomaly 정보와 temporal 정보 중심, Finetune은 CoT 방식 질문 포함.

(2) TempoGPT 구조

Quantization Encoder:
- VQ-VAE 기반 patch-wise encoding
- Codebook으로 정수 token 변환.
Shared Embedding Layer:
- 기존 Text vocab에 temporal token 확장.
LLM:
- GPT-2, LLaMA, Phi-2 등 다양한 backbone 사용 가능.
Procedure
- Step 1) Pre-train (embedding W만 학습)
- Step 2) Fine-tune (LoRA or Full tuning).

5. Experiments

(1) Dataset

전기 시뮬레이터 기반 생성 데이터셋.
총 5가지 reasoning task에서 평가:
- Trend 관련 (2개)
- Reasoning 관련 (3개)

(2) Task

자연어 QA 형식으로 주어지는 TS 해석 문제.

(3) Baseline

Text Prompt 기반: GPT-3.5, GPT-4 (TS을 Text로 변환)
Continuous Embedding 기반:
- GPT4MTS (Linear)
- Time-LLM (Attention)
- ChatTS (MLP)

(4) Evaluation Metric

CA: Conclusion Accuracy
LRA: Logical Reasoning Accuracy
DR: Deception Rate (결론은 맞지만 reasoning이 틀림)

(5) Resource

GPU: 4 × V100
GPT-2는 full fine-tuning, 나머지는 LoRA 사용
Pretrain: 6.6K step / Finetune: 7.2K step

6. Conclusion

TLM의 TS reasoning 한계를 해결하기 위해…

White-box 기반 데이터셋 생성
Temporal quantization 기반 token alignment

결론

TempoGPT는 논리적으로 일관된 reasoning, 낮은 DR, 높은 LRA를 달성.

Twitter Facebook LinkedIn

You May Also Enjoy

2 minute read

7 minute read

1 minute read

5 minute read