ITFormer; Bridging Time Series and Natural Language for Multi-Modal QA with Large-Scale Multitask Dataset

ICML 2025

1 minute read

Seunghan Lee

Seunghan Lee

Deep Learning, Data Science, Statistics

인용 수 (2025-08-27 기준): 0회
https://arxiv.org/pdf/2506.20093

1. Abstract

[Task] Time-Series QA라는 새로운 Task 정의
[Dataset] Large-scale Multi-task TSQA 데이터셋 (EngineMT-QA) 제안.
[Model] ITFormer를 통해 TS encoder와 frozen LLM 간의 시맨틱 정렬 및 질의응답을 수행
- 1% 미만 파라미터 추가만으로도 기존 SOTA 대비 뛰어난 QA 성능 달성.
코드 및 데이터 공개: https://pandalin98.github.io/itformer_site/

2. Introduction

(1) Motivation

산업/의료/기후 등에서 TS의 중요성 증가.
사용자는 자연어를 통해 TS를 직관적으로 다루길 원함.
기존 연구는 대부분 단일 모달리티(task-specific) 기반 → 자연어 기반 상호작용 부족.

(2) Proposal

TSQA 정의: 사용자가 TS를 기반으로 다양한 질의를 자연어로 제시.
이를 위해 [Dataset] & [Model]을 제안
1. [Dataset] EngineMT-QA: 센서 + 텍스트 기반 Multi-task QA 데이터셋
2. [Model] ITFormer: LLM과 TS Encoder를 연결하는 lightweight alignment 구조 제안

TS 분야: forecasting, classification, anomaly detection 등 task-specific 연구가 중심.
LLM + Multi-modal QA: 주로 vision-text 중심으로 발전 (e.g. VQA, VisualDialog).
TS + NLP: Time-LLM, ChatTime 등 일부 시도는 존재하나, 텍스트를 보조정보로만 활용.
TSQA는 시계열 + 자연어 간 시맨틱 상호작용을 요구하는 새로운 패러다임.

4. Methodology

(1) Problem Definition

Input: 시계열 \(T\), 자연어 질문 \(q\)
Output: 자연어 답변 \(a\)
Model: \(f : (T, q) → a\) 를 학습

(2) ITFormer 구조

.

TPE (Time Token Position Encoding): 시간, 채널, 세그먼트 위치정보 부여
LIT (Learnable Instruct Token): task-specific semantic instruction
ITA (Instruct Time Attention): temporal & textual representation 동적 정렬
TAL (Time Token as Language): 시계열을 언어 토큰처럼 변환하여 LLM에 입력

(3) 학습 방법

Freeze: TS encoder, LLM
Train (SFT): Alignment module (전체 파라미터 중 0.07%만 학습)
Cross-entropy loss 사용

5. Experiments

(1) Dataset: EngineMT-QA

기반: NASA N-CMAPSS 엔진 데이터
QA 수: 110,000+
총 4가지 태스크 포함:
1. Understanding (open QA)
2. Perception (fault classification)
3. Reasoning (degradation 추론)
4. Decision-Making (maintenance 판단)

(2) Evaluation Metrics

Open-ended: BLEU, ROUGE-L
Classification: Accuracy, F1-score

(3) Baselines

Multimodal API: ChatGPT-4o, Gemini
Vision-text: InstructBLIP, CoCa, MCAN-VQA
TimeSeries-text: Time-LLM, AutoTime
TS encoder: PatchTST (공통 사용)

(4) Results

ITFormer-7B이 모든 task에서 최고 성능 달성
- Reasoning F1: 88.69 / Decision BLEU: 38.68
- Vision-text, LLM API, 기존 TS-text 모두 능가
Ablation 결과: TPE와 ITA가 가장 기여도가 큼
모듈 수 증가에 따라 성능 상승
Efficiency 측면에서도 기존 방식 대비 inference 속도 향상 (Fig. 6 참조)

6. Conclusion

ITFormer는 시계열과 자연어 사이의 semantic bridge 역할을 수행.
소수의 param update만으로도 강력한 QA 성능 확보.
EngineMT-QA는 향후 Time-Series QA 분야의 표준 데이터셋이 될 수 있는 잠재력.

Twitter Facebook LinkedIn

You May Also Enjoy

2 minute read

2 minute read

8 minute read

2 minute read