Post

[논문 리뷰] Deep Multimodal Learning with Missing Modality: A Survey

[논문 리뷰] Deep Multimodal Learning with Missing Modality: A Survey
  • Multimodal train/test 에서 modality missing은 성능에 부정적
  • missing modality를 처리하도록 설계된 multimodal learning은 model이 robust하게 작동할 수 있게 함


Introduction

  • Multimodal은 단일 modality가 감지하지 못하는 복잡한 패턴과 관계 밝힘
  • 그러나 Multimodal system은 modality missing 문제에 직면하는 경우 많음 → 관심 커짐
  • Missing modality가 발생하는 sample 제거는 단순하나 정보가 낭비되는 문제가 있음

→ Missing modality에도 robust하게 작동하는 system 개발이 중요

Definition

  • **MLMM (Multimodal Learning with Missing Modality) **: Modality missing 문제 해결책
  • MLFM (Multimodal Learning with Full Modality) : MLMM과 대조되는 모든 modality set 사용하는 방법

Challenge

  • train/test 중에 사용 가능한 modality 수에 관계없이 정보를 dynamic하게 handle/fusion
  • Full modality sample 성능과 유사 성능 유지

Domains

  • information retrieval
  • remote sensing
  • robotic vision
  • medical diagnosis
  • sentiment analysis
  • multi-view clustering


Method

Data Processing Aspect

Model의 data processing 방법(시점)에 중점

Modality Imputation

modality data level에서 missing 처리, missing data 자체를 imputation

→ modality missing을 정확히 imputation한다면 full modality로 간주

Missing compositing : 합성

  • Zero/Random value composition

    → dataset의 다양성 줄임

  • Retrieval-based composition : 유사 분류의 sample에서 데이터 copy / average (KNN)

    → pixel-level task에 부적합, KNN의 경우 cost가 높고 불균형 data에 민감

Missing generating : GAN, Diffusion 통해 missing modality 생성

  • Individual modality generation : modality 별 생성 model 학습
  • Unified modality generation : 전체 modality 생성 가능한 model 학습

    → 고품질 생성 한계, cost 높음

Representation-Focused Models

representation level에서 missing 처리

**Coordinate representation **: 다른 modality의 representation를 semantic space에 align

  • Regularization
  • Correlation

→ 두 개 또는 세 개 modality 사용시 성능 높음

Missing compositing

  • Retrieval-based composition : 유사 sample의 feature 이용
  • Arithmetic operation-based representation composition : 비학습 방식, 단순 pooling 등

Missing generating

  • Indirect-to-task representation generation : modality 학습 시 decoder도 함께 학습, missing에 대해 decoder로 representation 생성
  • Direct-to-task representation generation : 가용 modality의 representation으로 missing modality의 representation 생성하는 model 학습

Strategy Design Aspect

Architecture-Focused Models

train/inference 단계에서 사용 가능한 modality에 adaptive하도록 설계

Attention-based

  • Attention fusion : modality 내 또는 intra modality 에서의 attention fusion

    → missing modality 의 정보는 실제 fusion 과정에서 무시, 존재하는 modality로 representation을 잘 만들기 위한 목적

Transformer-based

  • Joint representation learning : modality encoder 의 출력을 transformer 기반의 fusion model에 전달
    • missing modality를 masking처리
  • Parameter efficient learning : Full modality sample들로 학습 후 누락 modality sample들로 LoRA 등 추가해 학습

Distillation-based : full modality sample로부터의 distillation / model 내의 branch 통한 distillation

  • Representation-based : full modality로 학습된 teacher model로 missing modality로 학습되는 student model 지도
  • Process-based
  • Hybrid

→ teacher model의 학습 시 결국 full modality 요구

Graph Learning-based

  • 각 modality 공통 space에 mapping
  • 가용 modality를 dynamic하게 연결하는 hyper edge 도입
  • graph attention

**MLLM **: LLM이 feature processor 역할, encoder feature 통합.

Model Combinations

architecture 또는 학습 방법을 통해 해결

Ensemble : encoder 결합

Dedicated training : train method 중심

Discrete scheduler : LLM이 controller 역할을 해 task에 따라 적절한 module 선택



최근 MLMM task에 대한 연구가 늘어나고 있고 특히 의료나 비디오 등의 분야에서 주목받고 있는 듯 하다. GAN과 같은 generative model을 이용한 modality imputation 시도와 Auto encoder를 이용한 representation 단에서의 imputation이 주를 이루는 것 같다. Fusion이나 train method를 이용한 시도도 등장하고 있으나 조금 더 연구가 필요해 보인다.

This post is licensed under CC BY 4.0 by the author.