TempoGPT: Enhancing Time Series Reasoning via Quantizing Embedding (arxiv 2025)
- 인용 수: (2025-08-27 기준) 0회
- 링크: https://arxiv.org/pdf/2501.07335
1. Abstract
기존 TLM (Time-series Language Models)
- (O) Trend 분석에는 성능이 좋지만
- (X) 복잡한 reasoning task에선 성능 저하.
원인:
- 학습 데이터에 reasoning 과정이 포함되지 않음
- TS는 정교한 tokenization이 없어, Text와 표현 방식이 불일치.
제안: TempoGPT
- White-box 시스템 기반의 Multi-modal TS reasoning dataset 구성.
- Temporal embedding을 정량화(quantization)하여 discrete token으로 변환.
- Temporal + Text token을 공유 embedding layer로 처리.
Experiment
-
Reasoning task에서 state-of-the-art 성능 및 논리적 일관성 확보.
-
코드: https://github.com/zhanghaochuan20/TempoGPT
2. Introduction
(1) Motivation
-
TLM은 vision, audio 등에서 성공했지만 TS reasoning에는 제한적 성능
(특히, 물리 시스템과 변수 간 관계 추론은 어려움)
-
기존 Multi-modal TS는 대부분 단순 label만 존재
\(\rightarrow\) Reasoning 학습 불가
(2) Proposal
- White-box system 기반 데이터 생성 (물리 시뮬레이터 활용).
- Temporal quantization 기법을 통해 TS 정보를 discrete token으로 정제.
- Token 간 표현 정합성을 맞춰 LLM의 reasoning 능력 활용 극대화.
.
3. Related Works
(1) Time Series Language Models
- 초기) LLM을 forecasting/classification 등 단순 task에 사용.
- 중기) 이후 Prompt 기반 혹은 Alignment 기반 방법 등장.
- 최근) Trend, seasonality 등 기초 TS 특성 추출에는 성공
\(\rightarrow\) 그러나 복잡 reasoning에선 부진 !!
(2) Multi-modal Alignment
- Vision 도메인 기반 alignment(BLIP-2, CLIP 등)를 차용한 시도.
- TS은 tokenization이 없어 표현 일관성 부족 → LLM 활용에 한계.
- 일부 연구에서 quantization 도입 시도 있으나, 대부분 단순 예측 용도에 그침.
4. Methodology
(1) Multi-modal Data Construction
- White-box 전기 회로 시뮬레이터를 구성하여 6개 TS 변수를 생성:
- 두 개의 AC 전원, 세 개의 저항, 전류 등.
- Rule-based + Human-in-the-loop 방식으로 label 생성.
총 5가지 reasoning task
- Trend Analysis
- Trend Forecast
- Fault Judgement
- Fault Diagnosis
- Fault Analysis
- Pretrain은 anomaly 정보와 temporal 정보 중심, Finetune은 CoT 방식 질문 포함.
(2) TempoGPT 구조
- Quantization Encoder:
- VQ-VAE 기반 patch-wise encoding
- Codebook으로 정수 token 변환.
- Shared Embedding Layer:
- 기존 Text vocab에 temporal token 확장.
- LLM:
- GPT-2, LLaMA, Phi-2 등 다양한 backbone 사용 가능.
- Procedure
- Step 1) Pre-train (embedding W만 학습)
- Step 2) Fine-tune (LoRA or Full tuning).
5. Experiments
(1) Dataset
-
전기 시뮬레이터 기반 생성 데이터셋.
-
총 5가지 reasoning task에서 평가:
- Trend 관련 (2개)
- Reasoning 관련 (3개)
(2) Task
- 자연어 QA 형식으로 주어지는 TS 해석 문제.
(3) Baseline
-
Text Prompt 기반: GPT-3.5, GPT-4 (TS을 Text로 변환)
-
Continuous Embedding 기반:
- GPT4MTS (Linear)
- Time-LLM (Attention)
- ChatTS (MLP)
(4) Evaluation Metric
- CA: Conclusion Accuracy
- LRA: Logical Reasoning Accuracy
- DR: Deception Rate (결론은 맞지만 reasoning이 틀림)
(5) Resource
- GPU: 4 × V100
- GPT-2는 full fine-tuning, 나머지는 LoRA 사용
- Pretrain: 6.6K step / Finetune: 7.2K step
6. Conclusion
TLM의 TS reasoning 한계를 해결하기 위해…
- White-box 기반 데이터셋 생성
- Temporal quantization 기반 token alignment
결론
- TempoGPT는 논리적으로 일관된 reasoning, 낮은 DR, 높은 LRA를 달성.