wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations ( https://arxiv.org/abs/2006.11477) 논문을 공부하면서 궁금했던 부분을 해결한 내용을 정리했습니다. 잘못된 부분이 있다면 댓글 의견 환영합니다.
Quantization module의 학습 원리
For self-supervised training we discretize the output of the feature encoder z to a finite set of speech representations via product quantization [25]. This choice led to good results in prior work which learned discrete units in a first step followed by learning contextualized representations.
wav2vec 2.0 의 Quantization module에서는 음성데이터를 discrete한 표현으로 변환하기 위해 Product quantization을 사용한다. (참고: https://alifestudy.tistory.com/65)
- Feature Encoder 출력 생성
- wav pcm 데이터는 CNN 기반의 feature encoder를 거쳐 프레임 단위의 연속적인 표현 $ z $로 변환된다.
- 즉, $ z ∈ R^{T×d} $, 여기서 $ T $ 는 시간 프레임 수, $ d $는 임베딩 차원
- wav2vec2.0은 16kHz wav를 기준으로 하며, convolution layer는 7개, stride는 [5, 2, 2, 2, 2, 2, 2]이다. 따라서 $ 5 * 2^6 = 320 $ sample이 1 frame (1 frame 당 20ms) 으로 표현된다.
- Product Quantization (PQ) 적용
- Feature encoder의 출력 $ z $를 이산적인 벡터 표현으로 변환하기 위해 product quantization을 적용
- 이를 위해 코드북(codebook)을 활용하며, 코드북의 각 요소는 클러스터링된 중심점(centroids) 역할을 한다고 볼 수 있음
- 코드북 학습 방식
- wav2vec 2.0에서는 Gumbel-Softmax (참고: https://alifestudy.tistory.com/64)를 활용하여 코드북을 학습, 이를 통해 학습 초기에도 미분 가능하게 이산적인 코드북 선택이 가능하며, 코드북의 원소들이 점진적으로 학습됨
wav2vec2.0 논문의 Gumbel-softmax 수식 - (추가 작성 예정)
- wav2vec 2.0에서는 Gumbel-Softmax (참고: https://alifestudy.tistory.com/64)를 활용하여 코드북을 학습, 이를 통해 학습 초기에도 미분 가능하게 이산적인 코드북 선택이 가능하며, 코드북의 원소들이 점진적으로 학습됨
'딥러닝 개념, 논문' 카테고리의 다른 글
Wav2Vec2.0 논문 궁금한 부분 해결 정리 - Product quantization (0) | 2025.01.20 |
---|---|
Gumbel Softmax 기초 개념 정리 (0) | 2025.01.19 |