Gumbel softmax 기본 개념
일반적인 softmax는 확률 분포를 생성할 수는 있지만, 샘플링 과정에서는 미분이 불가능한 argmax 연산을 사용해야 함. Gumbel softmax는 이러한 문제를 해결하기 위해 Gumbel 분포를 활용하여 확률적이고 미분 가능한 샘플링 수행.
Gumbel softmax는 확률적 샘플링을 가능하게 하는 기술로, discrete 분포에서 미분 가능한 방식으로 샘플을 뽑을 수 있도록 설계된 연속적인 근사 방법. 이를 통해 신경망이 연속적인 값 대신 one-hot vector를 생성할 수 있게 도와줌.
Gumbel softmax 수식 분석
$ π_i $ : 소프트맥스 입력 값 (로짓, logit)
$ g_i $ : Gumbel 분포에서 샘플링된 노이즈 → $ −log(−log(u_i)),u_i∼U(0,1) $
$ τ $ : 온도(temperature) 파라미터 (값이 작을수록 원-핫 분포에 가까워지고, 클수록 부드러운 확률 분포)
Gumbel softmax의 장점
- Discrete sampling이 미분 가능해짐
원래는 이산적인 선택을 직접 다룰 수 없는 신경망에서도 Gumbel-Softmax를 사용하면 end-to-end 학습이 가능해짐 - Reparameterization Trick 적용 가능
Gumbel noise를 활용하여 역전파가 가능한 방식으로 확률적 샘플링이 가능함. - Temperature 조절을 통한 학습
초기에는 연속적인 값으로 학습하다가, 점차 온도를 낮추어 더 정밀한(이산적인) 선택을 수행할 수 있음.
Gumbel softmax 사용이 가능한 상황
- 강화 학습 (RL)
이산적인 행동을 선택해야 하는 상황에서 미분 가능하게 학습하고 싶을 때 - 변분 오토인코더 (VAE)
카테고리형 데이터를 다룰 때 연속적인 잠재 공간을 학습해야 하는 경우\ - 모델 내에서 이산적인 선택 필요 시
예를 들어, 텍스트 생성이나 그래프 신경망에서 특정 선택지를 골라야 하는 상황
Gumbel softmax의 단점
- 계산 비용 증가: Gumbel noise를 샘플링해야 하므로 일반 소프트맥스보다 추가 연산이 필요함.
- 온도 파라미터 튜닝 필요: 적절한 $ τ $ 값 설정이 학습 성능에 중요한 영향을 미침.
- 불안정성: 낮은 온도에서는 학습이 불안정해질 수 있음.
'딥러닝 개념, 논문' 카테고리의 다른 글
Glow: Generative Flow with Invertible 1 x 1 Convolutions 논문 리뷰 (0) | 2025.04.06 |
---|---|
Wav2Vec2.0 논문 궁금한 부분 해결 정리 - Codebook 학습 과정 (0) | 2025.01.21 |
Wav2Vec2.0 논문 궁금한 부분 해결 정리 - Product quantization (0) | 2025.01.20 |