Voice, Acoustic AI 5

[논문] Music Source Separation with Band-Split RNN (TASLP 2023)

이 글에서는 2023 TASLP(Transactions on Audio, Speech and Language Processing)에 게재된 "Music Source Separation with Band-Split RNN" (Yi Luo, et al) 논문에 대해 리뷰한다. Music source separation은 음악에서 여러 주요 악기들 (Vocal, Bass, Drum 등)을 분리하는 작업을 뜻한다. 이 논문은 band-split RNN을 이용하여 악기들을 효과적으로 분리하는 방법을 제시하였다. Introduction Problems많은 MSS(Music Source Separation)모델들은 다른 research field에서 영감을 받은 이미 존재하는 architectures이다.resear..

[논문] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations (Neurips 2020)

이 글에서는 2020 Neurips에 게재된 "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations" (Alexei Baevski, et al)논문에 대해 리뷰한다. 제목 그대로 wav 음원을 vector (speech representation)으로 매핑하는 모델을 제안하였다. 이 논문을 TTS, STT에 넣은 이유는 wav2vec의 output에 간단한 predictor만 붙여주면 speech-to-text 모델로 사용할 수 있기 때문이다. ※ STT: Speech-To-Text, 음성을 텍스트로 변환해 주는 작업이다. Abstract이 연구에서는 처음으로 script없이 오디오로만 표현을 학습하고, script..

[논문] I-vector (& Joint Factor Analysis)

이번 post는 " Front-End Factor Analysis for Speaker Verification " Patrick Kenny, at al, TASLP (2010) 논문을 정리한다. 이전 post에서 SV의 시초격인 GMM-UBM에 대해 정리하였다.GMM-UBM (Gaussian Mixture Model - Universal Background Model) (tistory.com) GMM-UBM (Gaussian Mixture Model - Universal Background Model)이번 post는 "Speaker Verification Using Adapted Gaussian Mixture Models" D.Reynolds, et al, Digital signal processing ..

[논문] GMM-UBM (Gaussian Mixture Model - Universal Background Model)

이번 post는 "Speaker Verification Using Adapted Gaussian Mixture Models" D.Reynolds, et al, Digital signal processing (2000) 논문을 정리한다. 위의 연대표는 SV(speaker verification)에서 시대별로 중요한 역할을 한 연구들이다. 이번 post에서는 GMM-UBM모델에 대해 다룬다. GMM-UBM은 1995년에 처음 소개된 방법으로 꽤 역사가 깊은 연구이다. "Speaker Verification Using Adapted Gaussian Mixture Models" D.Reynolds, et al, Digital signal processing (2000)OverviewGMM-UBM 모델의 전체 구..

Speaker Verification (화자 검증), EER (Equal-Error-Rate)

Speaker Verification(화자 검증)은 목소리가 특정 사람의 것 인지 확인하는 분야이다. 이는 종종 Speaker Identification(화자 확인)과 혼동되곤 한다. Speaker verification (화자 검증) VS Speaker identification (화자 확인)두 Task는 핵심 기술을 공유하는 경우도 많지만 기본적으로 다르다. Speaker verification: 목소리가 특정한 사람의 것인지 아닌지 확인Speaker identification: 목소리가 어떠한 사람의 것인지 구별Speaker verification은 목소리가 누구의 것인지는 관심이 없고 오로지 주인의 목소리인지 아닌지에만 관심있다. 따라서 보안과 같은 용도로 많이 사용된다. 이 카테고리에서는 Spe..