GPT4MTS: Prompt-based Large Language Model for Multimodal Time-series Forecasting

https://ojs.aaai.org/index.php/AAAI/article/view/30383


Abstract

Problem setting

  • 기존 TSF 모델은 uni-modal에만 집중
  • 성능 향상에 도움이 되는 extra knowledge가 존재하지만
    • 수집이 어렵고
    • multimodal fusion이 쉽지 않음

Key idea

  • LLM을 활용해 다양한 데이터 소스로부터 corresponding textual information을 수집하는 general principle 제안
  • (Prompt-based LLM framework) GPT4MTS 제안
    • numerical data + textual information을 동시에 활용하는
  • Dataset contribution
    • GDELT-based multimodal TS dataset 제안
    • 뉴스 영향 예측을 위한 concise + well-structured multimodal TS + text 데이터셋

Results

  • extensive experiments
  • extra-textual information을 활용한 forecasting 성능 향상 입증


1. Introduction

Motivation

  • TSF는 다양한 분야에서 핵심적인 역할을 함
  • Textual information의 영향력이 커지고 있음에도, multimodal TS dataset은 부족함
  • LLM의 등장으로 새로운 forecasting paradigm과 데이터셋 설계가 가능해짐
  • Limitations of existing methods: 기존 방법은 unimodal TS에만 집중

figure2


Related LLM-based attempts

  • 일부 연구는 TS를 text로 변환하거나 LLM embedding과 정렬함
  • True multimodal input (TS + text)을 사용하는 접근은 거의 없으며
  • METS는 healthcare에 한정되어 일반화가 어려움


Proposed pipeline

  • LLM을 활용한 textual information generation pipeline 제안
  • Collection → Summarization → Re-rank → Efficient summary 구조
  • 모든 도메인에 적용되지는 않지만 finance, communication 등에는 유효

Dataset: GDELT

  • GDELT-based multimodal TS dataset 구축
  • TS + event textual summaries를 포함
  • computational communication, finance, policy 분석 등 다양한 분야 확장 가능


Model: GPT4MTS

  • Prompt tuning-based LLM, GPT4MTS 제안
  • Numerical TS는 patch + RevIN + linear embedding
  • Text는 soft prompt로 사용하며 attention layer는 freeze
  • Extra-textual information이 forecasting 성능을 향상시킴


Contributions

  • (1) Textual data를 TS에 통합하는 general pipeline 제안
  • (2) GDELT multimodal dataset 구축
  • (3) Extensive experiments로 방법의 효과 검증


2. Related Works

(1) LLM

  • Transformer 기반 LLM은 NLP와 CV에서 큰 성과를 보임
  • BERT, T5, GPT, LLaMA 등 다양한 사전학습 모델 존재
  • TS forecasting 분야에서의 LLM 활용은 아직 충분히 탐구되지 않음


(2) Prompting

  • Prompt는 모델의 출력을 유도하는 핵심 메커니즘
  • 기존은 주로 vision/NLP 중심
    • CLIP, T5 등에서 text prompt의 효과가 입증됨
  • 본 연구는 textual prompt로 numerical TS 처리를 유도하는 점이 차별점


(3) Multimodal TS Dataset

  • 기존 benchmark (Weather, ETT)는 numeric-only TS
  • GDELT dataset은 textual content를 포함한 TS 제공
  • LLM이 extra-textual information을 활용할 수 있는 환경을 조성


(4) LLM methods for TS

  • TS를 patch로 처리하거나 TS–text embedding을 정렬하는 접근들이 존재
    • Patch-based TS + pre-trained model
    • Contrastive alignment (TEST)
    • Reprogramming 기반 (TimeLLM)
    • TS → text 변환 또는 text-only 방식
  • 본 연구
    • pre-trained LLM + prompt 기반 textual input을 사용


3. GDELT 데이터셋

Global Database of Events, Language, and Tone (GDELT) database

  • 전 세계 뉴스 미디어를 100+ 언어로 모니터링하는 대규모 이벤트 DB
  • 이벤트 중심 정보로 global societal trends 분석에 적합


figure2


(1) TS Data Collection

  • 상위 10 EventRootCode에 대해 데이터 수집
  • Forecasting 변수
    • NumMentions
    • NumArticles
    • NumSources
  • 이벤트별 attention level을 반영하는 지표
  • 55 US regions + US national
  • 기간: 2022-08-17 ~ 2023-07-31


(2) Textual Data Collection

  • 이벤트·지역·날짜별 10 news articles 수집
  • Procedures
    • Step 1) T5로 1차 Article-level summary 생성
    • Step 2) Event type 기반 hypothetical summary 생성
    • Step 3) Similarity 기반 re-rank
    • Step 4) Top-5 summaries로 final summary 생성
      • 주로 ChatGPT-3.5 API (일부는 비용 문제로 T5 사용)
  • Noise Handling
    • 1차 summary의 중복·무의미 정보 문제 존재
    • Re-ranking으로 관련도 낮은 summary 제거
    • 품질이 낮은 final summary는 scraped title summary로 대체


(3) Dataset Purpose

  • 이벤트 attention dynamicsregional impact 예측
  • multimodal TS dataset generation pipeline의 실효성 검증


figure2


4. Architecture: GPT4MTS

figure2

Categories: ,

Updated: