[article] Multimodal Deep Learning for Time Series Forecasting Classification and Analysis

2025. 5. 7. 18:33·🤖 ai logbook
728x90
반응형

평소에 관심있던 주제에 대해 다루고 있던 Medium의 'Multimodal Deep Learning for Time Series Forecasting Classification and Analysis'라는 article을 간단하게 정리했다.

자세한 내용은 아래 link를 참고바란다.

 

reference : https://medium.com/deep-data-science/multimodal-deep-learning-for-time-series-forecasting-classification-and-analysis-8033c1e1e772

 

Multimodal Deep Learning for Time Series Forecasting, Classification, and Analysis

The Future of Forecasting: How Multi-Modal AI Models Are Combining Image, Text, and Time Series in high impact areas like health and…

medium.com

 

 

최근 딥러닝 모델들은 텍스트와 이미지 데이터를 함께 처리하는 방식으로 빠르게 발전하고 있다.

하지만 여전히 시계열 데이터와 텍스트, 이미지, 오디오 같은 다양한 형태의 데이터를 함께 융합하는 연구는 상대적으로 부족한 상황이다.

이러한 멀티모달 융합 모델은 여러 산업 분야에서 활용될 수 있는 가능성을 지니고 있다.

예를 들어,

  • 강 수위(y: 숫자)를 예측하기 위해 과거 기상 데이터(x1: 시계열)와 위성 이미지(x2: 이미지)를 함께 활용
  • 환자의 생존 가능성(y: 확률)을 예측하기 위해 생체 신호(x1: 시계열), 의료 영상(x2: 이미지), 의사 소견(x3: 텍스트) 데이터를 활용
  • 제품 판매량(y: 숫자)을 예측하기 위해 시계열 데이터(x1: 시계열), 제품 설명(x2: 텍스트), 제품 이미지(x3: 이미지)를 결합
  • 보안 시스템에서 이상 탐지(y: 분류)를 수행하기 위해 파일 경로 및 URL 로그(x1: 텍스트), 접속 기록(x2: 시계열)을 융합
  • 주식 가격(y: 숫자)을 예측하기 위해 주가 데이터(x1: 시계열)와 뉴스 기사(x2: 텍스트)를 결합

 

1. 위성 이미지와 시계열의 결합

CrossVIVIT (NeurIPS 2023)

[paper, NeurIPS 2023] CrossViViT : 시공간 정보를 활용한 태양복사량 시계열 예측 모델

 

위성 이미지(x1) + 발전소 시계열(x2) -> 태양 복사량(y) 예측

  • Vision Transformer, ViT : 이미지를 패치 단위로 나누어 시퀀스로 처리한다.
  • Temporal Transformer : 시간 흐름에 따른 데이터를 Transformer 구조로 처리한다.
  • Cross Transformer : 서로 다른 유형의 데이터를 통합해 상호작용을 학습할 수 있도록 한다.
  • ROPE(Positional Encoding) : 상대적인 위치 정보를 보존할 수 있는 위치 인코딩 기법을 사용하여 위성 이미지에서 시간적 위치 정보를 보존한다.
  • Multi-Quantile Loss : 예측값의 여러 분위수를 동시에 고려함으로써, 불확실성을 반영하고 예측 분포 전체를 고려하는 방식으로 손실을 계산한다.

 

  • 이미지 처리 시 Tubelet Embedding(영상 내 작은 영역들을 묶어 3D 패치로 입력하는 기법)을 사용하지 않았는데, 이를 적용하면 성능 향상이 기대됨
  • 기존 Transformer 대신 Inverted Transformer(연산 효율성을 개선한 Transformer 구조)와 같은 모델을 도입하면 성능이 개선될 가능성 있음

 

EarthFormer (NeurIPS 2022)

Amazon Web Services (AWS), 홍콩과학기술대학교

[paper, NeurIPS 2022] Earthformer : 시공간 Transformer 기반 기상·기후 예측 모델

 

과거 위성 이미지(x) -> 미래 기상 이미지(y) 예측

  • U-Net 형태 구조 (인코더-디코더)
  • 기존의 Transformer 대신 Cuboid Attention Mechanism을 사용
    • Local 방식 : 공간적으로 가까운 픽셀 그룹만 집중적으로 학습
    • Dilated 방식 : 시간 간격이 벌어진 픽셀들을 그룹화하여 장기적인 패턴 학습 가능

 

PreDiff (NeurIPS 2023)

Amazon Web Services (AWS), Boson AI, 홍콩과학기술대학교

[paper, NeurIPS 2023] PreDiff: 시공간 Diffusion Model 기반 기상·기후 예측모델

 

과거 기상 이미지(x) -> 미래 기상 이미지(y) 확률적 생성

  • Latent Diffusion Model: 압축된 latent 공간(z)에서 노이즈 제거 반복하며 예측
  • Knowledge Alignment: 현실적인 보조 지식(Prior Knowledge) 기반 예측 결과 보정

 

  • 모델의 복잡성이 높아 해석이 어려움
  • 시계열 데이터를 추가적으로 활용하는 연구 필요

 

2. 전자 의료 기록

MedFuse ( Machine Learning for Healthcare (MLHC) 2022)

뉴욕대학교 아부다비 캠퍼스

[paper] MedFuse: 임상 시계열 데이터와 흉부 X-ray 영상을 활용한 다중모달 모델

 

생체 신호(x1) + X-ray(x2) -> 입원 기간(y) 예측

  • LSTM: 시계열(생체 신호) 모델링
  • CNN: X-ray 영상 임베딩
  • 두 임베딩을 융합하여 최종 예측
  • 시계열 데이터와 이미지 데이터의 정렬 순서가 성능에 영향을 미칠 수 있음
    (한 환자의 X-ray 사진이 A라는 생체 신호 시점에 찍힌 것인지, 아니면 A보다 앞선 혹은 뒤의 시점에 찍힌 것인지에 따라, 모델이 두 데이터 간 의미 있는 관계를 정확히 학습하지 못할 수 있다)

 

REALM

Google Research

[paper, ICML 2020] REALM(Retrieval-Augmented Language Model Pre-Training)

 

임상 기록(x1), 질병 코드(x2), 생체 신호(x3) -> 생존 가능성(y) 예측

  • Neural Knowledge Retriever: 외부 문서 검색
  • Knowledge-Augmented Encoder: 검색 결과와 입력을 함께 처리
  • Cross-Attention: 다른 모달리티 간 상호작용 강화
  • 각 모달리티 간 (Cross Attention)를 두 번 적용하여 데이터 간 연관성을 강화

 

LANISTR

arxiv에만 공개

Google Cloud AI

[paper] LANISTR : LANguage, Image, and STRuctured data

 

의료 이미지(x1) + 의료 기록(x2) + 생체 신호(x3) -> 생존율(y) 예측

  • ViT: 의료 이미지 인코딩
  • TabNet: 구조화 데이터(표, 수치) 인코딩
  • FLAVA 기반 Fusion: modality별 encoder 출력들을 projection 후 융합

 

다중모달 데이터 처리 및 시스템 설계

다중모달 데이터를 활용하는 모델을 실제 시스템에 적용할 때 고려해야 할 사항은 다음과 같다.

  1. 데이터 정렬 문제
    위성 이미지(x: 이미지)와 시계열 데이터(x: 시계열)가 항상 1:1로 매칭되지 않음
    → 데이터를 보간(interpolation)하거나 비어 있는 데이터를 처리하는 방법 필요
  2. 데이터 로더(Data Loader) 설계
    CSV 기반의 기본 데이터 로더를 확장해 이미지 데이터를 포함하도록 설계
    클라우드 저장소에서 데이터를 불러올 수 있도록 지원
  3. 모델 아키텍처 확장
    다양한 변환기 모델(Transformer, TabNet, FLAVA 등)을 조합해 성능 비교
    특정 태스크에 최적화된 융합 메커니즘을 선택할 수 있도록 설계
  4. 훈련 루프 개선
    기존의 시계열 모델 훈련 방식에서 다중모달 모델을 지원할 수 있도록 개선
    손실 함수와 평가 지표를 다중모달 데이터에 맞게 조정

 

728x90
반응형

'🤖 ai logbook' 카테고리의 다른 글

[paper] LANISTR : LANguage, Image, and STRuctured data  (0) 2025.05.04
[paper, ICML 2020] REALM(Retrieval-Augmented Language Model Pre-Training)  (1) 2025.04.30
[paper] MedFuse: 임상 시계열 데이터와 흉부 X-ray 영상을 활용한 다중모달 모델  (0) 2025.04.27
[paper, NeurIPS 2023] PreDiff: 시공간 Diffusion Model 기반 기상·기후 예측모델  (1) 2025.04.24
[paper, NeurIPS 2022] Earthformer : 시공간 Transformer 기반 기상·기후 예측 모델  (0) 2025.04.16
[paper, NeurIPS 2023] CrossViViT : 시공간 정보를 활용한 태양복사량 시계열 예측 모델  (0) 2025.04.12
Simpson’s Paradox - 통계의 거짓말  (0) 2025.02.19
[paper] DeepSeek-R1 정리 및 Ollama를 이용해서 DeepSeek-R1 모델 간단하게 사용해보기  (0) 2025.02.10
'🤖 ai logbook' 카테고리의 다른 글
  • [paper] LANISTR : LANguage, Image, and STRuctured data
  • [paper, ICML 2020] REALM(Retrieval-Augmented Language Model Pre-Training)
  • [paper] MedFuse: 임상 시계열 데이터와 흉부 X-ray 영상을 활용한 다중모달 모델
  • [paper, NeurIPS 2023] PreDiff: 시공간 Diffusion Model 기반 기상·기후 예측모델
이소야
이소야
✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 이소야
    I study SO
    이소야
    ✔ 공부 기록 ٩(๑•̀o•́๑)و
  • 전체
    오늘
    어제
    • 분류 전체보기 (217)
      • 🤖 ai logbook (39)
      • 💻 developers logbook (1)
      • 🥇 certification logbook (67)
      • ⚖️ legal logbook (108)
      • ⚡ electronics logbook (1)
      • 🌍 english logbook (0)
      • 🎁 etc (1)
  • 최근 글

  • 인기 글

  • 태그

    인공지능 입문
    온라인 강의 추천
    deeplearning
    민법
    법학과
    datascience
    형법
    머신러닝
    IBM
    자격증
    Python
    ADsP
    기본권의기초이론
    데이터분석준전문가
    Coursera
    데이터사이언스 입문
    방통대
    근로기준법
    certificate
    빅데이터분석기사
  • hELLO· Designed By정상우.v4.10.3
이소야
[article] Multimodal Deep Learning for Time Series Forecasting Classification and Analysis
상단으로

티스토리툴바