[논문 리뷰] Deep Multimodal Learning with Missing Modality: A Survey

게시 2025/12/02 업데이트 2026/05/20

By Jaehyuk Lee

조회 4 분읽는 시간

Multimodal train/test 에서 modality missing은 성능에 부정적
missing modality를 처리하도록 설계된 multimodal learning은 model이 robust하게 작동할 수 있게 함

Introduction

Multimodal은 단일 modality가 감지하지 못하는 복잡한 패턴과 관계 밝힘
그러나 Multimodal system은 modality missing 문제에 직면하는 경우 많음 → 관심 커짐
Missing modality가 발생하는 sample 제거는 단순하나 정보가 낭비되는 문제가 있음

→ Missing modality에도 robust하게 작동하는 system 개발이 중요

Definition

**MLMM (Multimodal Learning with Missing Modality) **: Modality missing 문제 해결책
MLFM (Multimodal Learning with Full Modality) : MLMM과 대조되는 모든 modality set 사용하는 방법

Challenge

train/test 중에 사용 가능한 modality 수에 관계없이 정보를 dynamic하게 handle/fusion
Full modality sample 성능과 유사 성능 유지

Domains

information retrieval
remote sensing
robotic vision
medical diagnosis
sentiment analysis
multi-view clustering

Method

Data Processing Aspect

Model의 data processing 방법(시점)에 중점

Modality Imputation

modality data level에서 missing 처리, missing data 자체를 imputation

→ modality missing을 정확히 imputation한다면 full modality로 간주

Missing compositing : 합성

Zero/Random value composition
→ dataset의 다양성 줄임
Retrieval-based composition : 유사 분류의 sample에서 데이터 copy / average (KNN)
→ pixel-level task에 부적합, KNN의 경우 cost가 높고 불균형 data에 민감

Missing generating : GAN, Diffusion 통해 missing modality 생성

Individual modality generation : modality 별 생성 model 학습
Unified modality generation : 전체 modality 생성 가능한 model 학습
→ 고품질 생성 한계, cost 높음

Representation-Focused Models

representation level에서 missing 처리

**Coordinate representation **: 다른 modality의 representation를 semantic space에 align

Regularization
Correlation
→ 두 개 또는 세 개 modality 사용시 성능 높음

Missing compositing

Retrieval-based composition : 유사 sample의 feature 이용
Arithmetic operation-based representation composition : 비학습 방식, 단순 pooling 등

Missing generating

Indirect-to-task representation generation : modality 학습 시 decoder도 함께 학습, missing에 대해 decoder로 representation 생성
Direct-to-task representation generation : 가용 modality의 representation으로 missing modality의 representation 생성하는 model 학습

Strategy Design Aspect

Architecture-Focused Models

train/inference 단계에서 사용 가능한 modality에 adaptive하도록 설계

Attention-based

Attention fusion : modality 내 또는 intra modality 에서의 attention fusion
→ missing modality 의 정보는 실제 fusion 과정에서 무시, 존재하는 modality로 representation을 잘 만들기 위한 목적

Transformer-based

Joint representation learning : modality encoder 의 출력을 transformer 기반의 fusion model에 전달
- missing modality를 masking처리
Parameter efficient learning : Full modality sample들로 학습 후 누락 modality sample들로 LoRA 등 추가해 학습

Distillation-based : full modality sample로부터의 distillation / model 내의 branch 통한 distillation

Representation-based : full modality로 학습된 teacher model로 missing modality로 학습되는 student model 지도
Process-based
Hybrid

→ teacher model의 학습 시 결국 full modality 요구

Graph Learning-based

각 modality 공통 space에 mapping
가용 modality를 dynamic하게 연결하는 hyper edge 도입
graph attention

**MLLM **: LLM이 feature processor 역할, encoder feature 통합.

Model Combinations

architecture 또는 학습 방법을 통해 해결

Ensemble : encoder 결합

Dedicated training : train method 중심

Discrete scheduler : LLM이 controller 역할을 해 task에 따라 적절한 module 선택

최근 MLMM task에 대한 연구가 늘어나고 있고 특히 의료나 비디오 등의 분야에서 주목받고 있는 듯 하다. GAN과 같은 generative model을 이용한 modality imputation 시도와 Auto encoder를 이용한 representation 단에서의 imputation이 주를 이루는 것 같다. Fusion이나 train method를 이용한 시도도 등장하고 있으나 조금 더 연구가 필요해 보인다.

Paper Review