Wav2Vec2.0 논문 궁금한 부분 해결 정리

wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations ( https://arxiv.org/abs/2006.11477) 논문을 공부하면서 궁금했던 부분을 해결한 내용을 정리했습니다. 잘못된 부분이 있다면 댓글 의견 환영합니다.

Quantization module의 학습 원리

For self-supervised training we discretize the output of the feature encoder z to a finite set of speech representations via product quantization [25]. This choice led to good results in prior work which learned discrete units in a first step followed by learning contextualized representations.

wav2vec 2.0 의 Quantization module에서는 음성데이터를 discrete한 표현으로 변환하기 위해 Product quantization을 사용한다. (참고: https://alifestudy.tistory.com/65)

Feature Encoder 출력 생성
- wav pcm 데이터는 CNN 기반의 feature encoder를 거쳐 프레임 단위의 연속적인 표현 $z$ 로 변환된다.
- 즉, $z ∈ R^{T×d}$ , 여기서 $T$ 는 시간 프레임 수, $d$ 는 임베딩 차원
- wav2vec2.0은 16kHz wav를 기준으로 하며, convolution layer는 7개, stride는 [5, 2, 2, 2, 2, 2, 2]이다. 따라서 $5 * 2^6 = 320$ sample이 1 frame (1 frame 당 20ms) 으로 표현된다.
Product Quantization (PQ) 적용
- Feature encoder의 출력 $z$ 를 이산적인 벡터 표현으로 변환하기 위해 product quantization을 적용
- 이를 위해 코드북(codebook)을 활용하며, 코드북의 각 요소는 클러스터링된 중심점(centroids) 역할을 한다고 볼 수 있음
코드북 학습 방식
- wav2vec 2.0에서는 Gumbel-Softmax (참고: https://alifestudy.tistory.com/64)를 활용하여 코드북을 학습, 이를 통해 학습 초기에도 미분 가능하게 이산적인 코드북 선택이 가능하며, 코드북의 원소들이 점진적으로 학습됨
  wav2vec2.0 논문의 Gumbel-softmax 수식
- (추가 작성 예정)

'딥러닝 개념, 논문' 카테고리의 다른 글

Glow: Generative Flow with Invertible 1 x 1 Convolutions 논문 리뷰 (0)	2025.04.06
Wav2Vec2.0 논문 궁금한 부분 해결 정리 - Product quantization (0)	2025.01.20
Gumbel Softmax 기초 개념 정리 (0)	2025.01.19

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

기억하고 싶은 모든 것

Wav2Vec2.0 논문 궁금한 부분 해결 정리 - Codebook 학습 과정

'딥러닝 개념, 논문' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

Wav2Vec2.0 논문 궁금한 부분 해결 정리 - Codebook 학습 과정

'딥러닝 개념, 논문' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역