이번 post는 " Front-End Factor Analysis for Speaker Verification " Patrick Kenny, at al, TASLP (2010) 논문을 정리한다.
이전 post에서 SV의 시초격인 GMM-UBM에 대해 정리하였다.
GMM-UBM (Gaussian Mixture Model - Universal Background Model) (tistory.com)
GMM-UBM (Gaussian Mixture Model - Universal Background Model)
이번 post는 "Speaker Verification Using Adapted Gaussian Mixture Models" D.Reynolds, et al, Digital signal processing (2000) 논문을 정리한다. 위의 연대표는 SV(speaker verification)에서 시대별로 중요한 역할을 한 연구들이다
mldiary.tistory.com
이번 post에선 그 이후, 딥러닝이 활용되기 전까지 가장 많이 사용되고 연구된 i-vector에 대해 소개한다.
그 전에 GMM-UBM에서 i-vector로 넘어가게 된 배경을 살펴보자.
GSV (Gaussian mixture model Super Vector)
GMM-UBM이 나온 이후, 이러한 GMM분포 기반 모델에서 GSV로 넘어오게 된다. GSV는 GMM분포를 벡터로 표현한 것이다. GMM-UBM을 다시 떠올려보자. 이는 여러 개의 gaussian model을 혼합하여 화자의 발화를 gaussian mixture 분포로 표현하였다. 하지만 이렇게 분포로 표현하게 되면 여러 유용한 연산들을 할 수 없게 되고 계산상으로 불리하다. 따라서 이러한 분포를 벡터로 표현하고자 한 것이 GSV이다.
GMM은 각 gaussian의 가중치, 평균, 표준편차를 parameter로 받는다. 즉, 2048개의 gaussain분포를 사용하면 총 parameter는 2048*3인 것이다. 여기서 가장 중요한 parameter인 '평균'만을 남기고 나머지는 버린다. 그러면 2048개의 가우시안 분포의 평균값이 나온다. 이를 그냥 2048*1의 벡터로 취급한 것이 GSV이다. 가장 중요한 정보만을 남김으로써 벡터로 치환하여 여러 연산들이 가능해진 것이다.
'Voice, Acoustic AI > Speaker Verification' 카테고리의 다른 글
[논문] GMM-UBM (Gaussian Mixture Model - Universal Background Model) (0) | 2024.08.07 |
---|---|
Speaker Verification (화자 검증), EER (Equal-Error-Rate) (0) | 2024.08.07 |