분류 전체보기 84

[논문] Denoising Diffusion Probabilistic Models (Neurips 2020)

이 글에서는 2020 Neurips에 게재된 "Denoising Diffusion Probabilistic Models" (Shaofeng Zhang et al) 논문을 정리한다.요즘들어 매우 자주 사용되고 언급되는 Diffusion model의 시대를 연 논문이라고 할 수 있다.이 논문의 주요 Contribution은 Diffusion model의 Loss를 수정하여 더 정확한 노이즈 예측을 수행하고 이를 통해 고해상도 이미지 복원을 가능하게 하였다는 점이다.이를 이해하기 위해 우선 Diffusion model부터 알아보자Background  Diffusion model은 $p_{\theta}(x_0) := \int p_{\theta}(x_{0:T})dx_{1:T}$ 를 따르는 잠재 변수 모델이다. 여..

[논문] GLiNER: Generalist Model for Named Entity Recognition usingBidirectional Transformer (NAACL 2024)

이번 글에서는 2024 NAACL에 게재된 "GLiNER: Generalist Model for Named Entity Recognition usingBidirectional Transformer" (Urchade Zaratiana, et al) 논문을 리뷰한다. GLiNER는 Bidirectional LM을 이용하여 NER을 수행한다. 중요한 점은, 추출하고자 하는 entity가 어떠한 종류이든 하나의 모델로 전부 추출해 줄 수 있다. 이전에 소개한 SciREX와 같은 대부분의 NER 논문은 사전 정의된 entity (SciREX에서는 과학 논문 내의 dataset, method 등)만을 추출할 수 있고 새로운 entity는 추출하지 못하였으나 GLiNER는 원하는 entity 종류를 입력으로 넣으면 ..

[논문] SciREX: A Challenge Dataset for Document-Level Information Extraction (ACL 2020)

이 글에서는 2020 ACL에 게재된 "SciREX: A Challenge Dataset for Document-Level Information Extraction" (Sarthak jain et al) 논문을 리뷰한다. 이 논문에서는 SciREX라는 과학 논문 데이터셋을 제공하고, 이를 바탕으로 entity recognition(NER), relation extraction(RE)을 수행하는 모델을 제시한다.  위의 그림을 보면 NER과 RE의 목적을 정확하게 이해할 수 있다. 각 색깔은 문서 내에서 추출하고자 하는 entity(노란색: Task, 파란색: Dataset 등)에 해당하며 화살표는 entity간의 relation을 나타낸다. ※ Named Entity Recognition (NER): 문..

[논문] Music Source Separation with Band-Split RNN (TASLP 2023)

이 글에서는 2023 TASLP(Transactions on Audio, Speech and Language Processing)에 게재된 "Music Source Separation with Band-Split RNN" (Yi Luo, et al) 논문에 대해 리뷰한다. Music source separation은 음악에서 여러 주요 악기들 (Vocal, Bass, Drum 등)을 분리하는 작업을 뜻한다. 이 논문은 band-split RNN을 이용하여 악기들을 효과적으로 분리하는 방법을 제시하였다. Introduction Problems많은 MSS(Music Source Separation)모델들은 다른 research field에서 영감을 받은 이미 존재하는 architectures이다.resear..

[논문] YAKE! Keyword extraction from single documents using multiple local features (Information Sciences 2020)

이번 글에서는 2020 Information Sciences에 게재된 "YAKE! Keyword extraction from single documents using multiple local features" (Ricardo Campos, et al) 논문을 리뷰한다. YAKE!의 특징은 statistic feature를 활용한 unsupervised keword extraction이라는 점이다. Introduction YAKE는 단일 문서에서 추출된 통계적 텍스트 특징을 기반으로 가장 관련성 높은 키워드를 선택하는 light-weight unsupervised keyword extraction model이다. 훈련이 필요 없으며 도메인 의존적이지 않다는 특징이 있다. 주요 contribution po..

[논문] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations (Neurips 2020)

이 글에서는 2020 Neurips에 게재된 "wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations" (Alexei Baevski, et al)논문에 대해 리뷰한다. 제목 그대로 wav 음원을 vector (speech representation)으로 매핑하는 모델을 제안하였다. 이 논문을 TTS, STT에 넣은 이유는 wav2vec의 output에 간단한 predictor만 붙여주면 speech-to-text 모델로 사용할 수 있기 때문이다. ※ STT: Speech-To-Text, 음성을 텍스트로 변환해 주는 작업이다. Abstract이 연구에서는 처음으로 script없이 오디오로만 표현을 학습하고, script..

[논문] Align Representations with Base: A New Approach to Self-Supervised Learning (CVPR 2022)

이 글에서는 2022 CVPR에 게재된 "Align Representations with Base: A New Approach to Self-Supervised Learning" (Shaofeng Zhang et al) 논문을 정리한다. 논문 제목을 읽어보면 'A New Approach to Self-Supervised Learning'이라고 해서 새로운 SSL 방법론에 대한 논문이라고 생각할 수 있지만, 정확히는 Positive pairs만을 이용하여 학습하는 contrastive learning(대조 학습) 기법의 새로운 접근법이라고 이해하면 될 것 같다. Contrastive Learning?contrastive learning에 대해서 간단하게 소개하면, 하나의 이미지에서 각각 다른 augment..

[논문] I-vector (& Joint Factor Analysis)

이번 post는 " Front-End Factor Analysis for Speaker Verification " Patrick Kenny, at al, TASLP (2010) 논문을 정리한다. 이전 post에서 SV의 시초격인 GMM-UBM에 대해 정리하였다.GMM-UBM (Gaussian Mixture Model - Universal Background Model) (tistory.com) GMM-UBM (Gaussian Mixture Model - Universal Background Model)이번 post는 "Speaker Verification Using Adapted Gaussian Mixture Models" D.Reynolds, et al, Digital signal processing ..

[논문] GMM-UBM (Gaussian Mixture Model - Universal Background Model)

이번 post는 "Speaker Verification Using Adapted Gaussian Mixture Models" D.Reynolds, et al, Digital signal processing (2000) 논문을 정리한다. 위의 연대표는 SV(speaker verification)에서 시대별로 중요한 역할을 한 연구들이다. 이번 post에서는 GMM-UBM모델에 대해 다룬다. GMM-UBM은 1995년에 처음 소개된 방법으로 꽤 역사가 깊은 연구이다. "Speaker Verification Using Adapted Gaussian Mixture Models" D.Reynolds, et al, Digital signal processing (2000)OverviewGMM-UBM 모델의 전체 구..

Speaker Verification (화자 검증), EER (Equal-Error-Rate)

Speaker Verification(화자 검증)은 목소리가 특정 사람의 것 인지 확인하는 분야이다. 이는 종종 Speaker Identification(화자 확인)과 혼동되곤 한다. Speaker verification (화자 검증) VS Speaker identification (화자 확인)두 Task는 핵심 기술을 공유하는 경우도 많지만 기본적으로 다르다. Speaker verification: 목소리가 특정한 사람의 것인지 아닌지 확인Speaker identification: 목소리가 어떠한 사람의 것인지 구별Speaker verification은 목소리가 누구의 것인지는 관심이 없고 오로지 주인의 목소리인지 아닌지에만 관심있다. 따라서 보안과 같은 용도로 많이 사용된다. 이 카테고리에서는 Spe..