[논문 리뷰] Deep Multimodal Learning with Missing Modality: A Survey

Posted Dec 2, 2025

By Jaehyuk Lee

5 min read

Multimodal train/test 에서 modality missing은 성능에 부정적
missing modality를 처리하도록 설계된 multimodal learning은 model이 robust하게 작동할 수 있게 함

Introduction

Multimodal은 단일 modality가 감지하지 못하는 복잡한 패턴과 관계 밝힘
그러나 Multimodal system은 modality missing 문제에 직면하는 경우 많음 → 관심 커짐
Missing modality가 발생하는 sample 제거는 단순하나 정보가 낭비되는 문제가 있음

→ Missing modality에도 robust하게 작동하는 system 개발이 중요

Definition

**MLMM (Multimodal Learning with Missing Modality) **: Modality missing 문제 해결책
MLFM (Multimodal Learning with Full Modality) : MLMM과 대조되는 모든 modality set 사용하는 방법

Challenge

train/test 중에 사용 가능한 modality 수에 관계없이 정보를 dynamic하게 handle/fusion
Full modality sample 성능과 유사 성능 유지

Domains

information retrieval
remote sensing
robotic vision
medical diagnosis
sentiment analysis
multi-view clustering

Method

Data Processing Aspect

Model의 data processing 방법(시점)에 중점

Modality Imputation

modality data level에서 missing 처리, missing data 자체를 imputation

→ modality missing을 정확히 imputation한다면 full modality로 간주

**Missing compositing** : 합성

- `Zero/Random value composition`

	<span class="notion-red">_→ dataset의 다양성 줄임_</span>

- `Retrieval-based composition` : 유사 분류의 sample에서 데이터 copy / average (KNN)

	<span class="notion-red">_→ pixel-level task에 부적합, KNN의 경우 cost가 높고 불균형 data에 민감_</span>

**Missing generating** : GAN, Diffusion 통해 missing modality 생성

- `Individual modality generation` : modality 별 생성 model 학습
- `Unified modality generation` : 전체 modality 생성 가능한 model 학습

	<span class="notion-red">_→ 고품질 생성 한계, cost 높음_</span>

Representation-Focused Models

representation level에서 missing 처리

**Coordinate representation **: 다른 modality의 representation를 semantic space에 align

- `Regularization`
- `Correlation`

	→ 두 개 또는 세 개 modality 사용시 성능 높음

**Missing compositing**

- `Retrieval-based composition` : 유사 sample의 feature 이용
- `Arithmetic operation-based representation composition` : 비학습 방식, 단순 pooling 등

**Missing generating**

Indirect-to-task representation generation : modality 학습 시 decoder도 함께 학습, missing에 대해 decoder로 representation 생성
Direct-to-task representation generation : 가용 modality의 representation으로 missing modality의 representation 생성하는 model 학습

Strategy Design Aspect

Architecture-Focused Models

train/inference 단계에서 사용 가능한 modality에 adaptive하도록 설계

**Attention-based**

- `Attention fusion` : modality 내 또는 intra modality 에서의 attention fusion

	<span class="notion-red">_→ missing modality 의 정보는 실제 fusion 과정에서 무시, 존재하는 modality로 representation을 잘 만들기 위한 목적_</span>


**Transformer-based**

- `Joint representation learning` : modality encoder 의 출력을 transformer 기반의 fusion model에 전달
	- missing modality를  masking처리
- `Parameter efficient learning` : Full modality sample들로 학습 후 누락 modality sample들로 LoRA 등 추가해 학습

**Distillation-based** : full modality sample로부터의 distillation / model 내의 branch 통한 distillation

- `Representation-based` : full modality로 학습된 teacher model로 missing modality로 학습되는 student model 지도
- `Process-based`
- `Hybrid` 

<span class="notion-red">_→ teacher model의 학습 시 결국 full modality 요구_</span>


**Graph Learning-based**

- 각 modality `공통 space에 mapping`
- 가용 modality를 dynamic하게 연결하는 `hyper edge` 도입
- `graph attention` 

**MLLM **: LLM이 feature processor 역할, encoder feature 통합.

Model Combinations

architecture 또는 학습 방법을 통해 해결

**Ensemble** : encoder 결합

**Dedicated training** : train method 중심

**Discrete scheduler** : LLM이 controller 역할을 해 task에 따라 적절한 module 선택

💡 최근 MLMM task에 대한 연구가 늘어나고 있고 특히 의료나 비디오 등의 분야에서 주목받고 있는 듯 하다. GAN과 같은 generative model을 이용한 modality imputation 시도와 Auto encoder를 이용한 representation 단에서의 imputation이 주를 이루는 것 같다. Fusion이나 train method를 이용한 시도도 등장하고 있으나 조금 더 연구가 필요해 보인다.

Paper Review

This post is licensed under CC BY 4.0 by the author.