[논문 리뷰] Deep Multimodal Learning with Missing Modality: A Survey
[논문 리뷰] Deep Multimodal Learning with Missing Modality: A Survey
- Multimodal train/test 에서 modality missing은 성능에 부정적
- missing modality를 처리하도록 설계된 multimodal learning은 model이 robust하게 작동할 수 있게 함
Introduction
- Multimodal은 단일 modality가 감지하지 못하는 복잡한 패턴과 관계 밝힘
- 그러나 Multimodal system은 modality missing 문제에 직면하는 경우 많음 → 관심 커짐
- Missing modality가 발생하는 sample 제거는 단순하나 정보가 낭비되는 문제가 있음
→ Missing modality에도 robust하게 작동하는 system 개발이 중요
Definition
- **MLMM (Multimodal Learning with Missing Modality) **: Modality missing 문제 해결책
- MLFM (Multimodal Learning with Full Modality) : MLMM과 대조되는 모든 modality set 사용하는 방법
Challenge
- train/test 중에 사용 가능한 modality 수에 관계없이 정보를 dynamic하게 handle/fusion
- Full modality sample 성능과 유사 성능 유지
Domains
- information retrieval
- remote sensing
- robotic vision
- medical diagnosis
- sentiment analysis
- multi-view clustering
Method
Data Processing Aspect
Model의 data processing 방법(시점)에 중점
Modality Imputation
modality data level에서 missing 처리, missing data 자체를 imputation
→ modality missing을 정확히 imputation한다면 full modality로 간주
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
**Missing compositing** : 합성
- `Zero/Random value composition`
<span class="notion-red">_→ dataset의 다양성 줄임_</span>
- `Retrieval-based composition` : 유사 분류의 sample에서 데이터 copy / average (KNN)
<span class="notion-red">_→ pixel-level task에 부적합, KNN의 경우 cost가 높고 불균형 data에 민감_</span>
**Missing generating** : GAN, Diffusion 통해 missing modality 생성
- `Individual modality generation` : modality 별 생성 model 학습
- `Unified modality generation` : 전체 modality 생성 가능한 model 학습
<span class="notion-red">_→ 고품질 생성 한계, cost 높음_</span>
Representation-Focused Models
representation level에서 missing 처리
1
2
3
4
5
6
7
8
9
10
11
12
13
14
**Coordinate representation **: 다른 modality의 representation를 semantic space에 align
- `Regularization`
- `Correlation`
→ 두 개 또는 세 개 modality 사용시 성능 높음
**Missing compositing**
- `Retrieval-based composition` : 유사 sample의 feature 이용
- `Arithmetic operation-based representation composition` : 비학습 방식, 단순 pooling 등
**Missing generating**
Indirect-to-task representation generation: modality 학습 시 decoder도 함께 학습, missing에 대해 decoder로 representation 생성Direct-to-task representation generation: 가용 modality의 representation으로 missing modality의 representation 생성하는 model 학습
Strategy Design Aspect
Architecture-Focused Models
train/inference 단계에서 사용 가능한 modality에 adaptive하도록 설계
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
**Attention-based**
- `Attention fusion` : modality 내 또는 intra modality 에서의 attention fusion
<span class="notion-red">_→ missing modality 의 정보는 실제 fusion 과정에서 무시, 존재하는 modality로 representation을 잘 만들기 위한 목적_</span>
**Transformer-based**
- `Joint representation learning` : modality encoder 의 출력을 transformer 기반의 fusion model에 전달
- missing modality를 masking처리
- `Parameter efficient learning` : Full modality sample들로 학습 후 누락 modality sample들로 LoRA 등 추가해 학습
**Distillation-based** : full modality sample로부터의 distillation / model 내의 branch 통한 distillation
- `Representation-based` : full modality로 학습된 teacher model로 missing modality로 학습되는 student model 지도
- `Process-based`
- `Hybrid`
<span class="notion-red">_→ teacher model의 학습 시 결국 full modality 요구_</span>
**Graph Learning-based**
- 각 modality `공통 space에 mapping`
- 가용 modality를 dynamic하게 연결하는 `hyper edge` 도입
- `graph attention`
**MLLM **: LLM이 feature processor 역할, encoder feature 통합.
Model Combinations
architecture 또는 학습 방법을 통해 해결
1
2
3
4
5
6
7
**Ensemble** : encoder 결합
**Dedicated training** : train method 중심
**Discrete scheduler** : LLM이 controller 역할을 해 task에 따라 적절한 module 선택
💡 최근 MLMM task에 대한 연구가 늘어나고 있고 특히 의료나 비디오 등의 분야에서 주목받고 있는 듯 하다. GAN과 같은 generative model을 이용한 modality imputation 시도와 Auto encoder를 이용한 representation 단에서의 imputation이 주를 이루는 것 같다. Fusion이나 train method를 이용한 시도도 등장하고 있으나 조금 더 연구가 필요해 보인다.
This post is licensed under CC BY 4.0 by the author.



