Gumbel Softmax 기초 개념 정리

Gumbel softmax 기본 개념

일반적인 softmax는 확률 분포를 생성할 수는 있지만, 샘플링 과정에서는 미분이 불가능한 argmax 연산을 사용해야 함. Gumbel softmax는 이러한 문제를 해결하기 위해 Gumbel 분포를 활용하여 확률적이고 미분 가능한 샘플링 수행.

Gumbel softmax는 확률적 샘플링을 가능하게 하는 기술로, discrete 분포에서 미분 가능한 방식으로 샘플을 뽑을 수 있도록 설계된 연속적인 근사 방법. 이를 통해 신경망이 연속적인 값 대신 one-hot vector를 생성할 수 있게 도와줌.

Gumbel softmax 수식 분석

$ π_i $ : 소프트맥스 입력 값 (로짓, logit)

$ g_i $ : Gumbel 분포에서 샘플링된 노이즈 → $ −log(−log(u_i)),u_i∼U(0,1) $

$ τ $ : 온도(temperature) 파라미터 (값이 작을수록 원-핫 분포에 가까워지고, 클수록 부드러운 확률 분포)

Gumbel softmax의 장점

Discrete sampling이 미분 가능해짐
원래는 이산적인 선택을 직접 다룰 수 없는 신경망에서도 Gumbel-Softmax를 사용하면 end-to-end 학습이 가능해짐
Reparameterization Trick 적용 가능
Gumbel noise를 활용하여 역전파가 가능한 방식으로 확률적 샘플링이 가능함.
Temperature 조절을 통한 학습
초기에는 연속적인 값으로 학습하다가, 점차 온도를 낮추어 더 정밀한(이산적인) 선택을 수행할 수 있음.

Gumbel softmax 사용이 가능한 상황

Gumbel softmax의 단점

Glow: Generative Flow with Invertible 1 x 1 Convolutions 논문 리뷰 (0)	2025.04.06
Wav2Vec2.0 논문 궁금한 부분 해결 정리 - Codebook 학습 과정 (0)	2025.01.21
Wav2Vec2.0 논문 궁금한 부분 해결 정리 - Product quantization (0)	2025.01.20

기억하고 싶은 모든 것