NLP Paper (02) - Byte Pair Encoding

» NLP

[BPE] Neural Machine Translation of Rare Words with Subword Units

해당 번역본은 정식 번역본이 아니며 개인이 공부를 위해서 번역한 내용으로 많은 오역, 오타가 존재합니다. 이러한 점을 감안해주시고 읽어주시면 감사하겠습니다.

Abstract

3줄 요약

  • 신경망 기계 번역 (NMT) 모델은 사용되는 단어는 다양한데 제한적인 단어장의 크기를 가졌고, 한정된 단어장때문에 OOV(Out-of-vocabulary) 문제가 발생합니다
  • 해당 논문에서는 희귀하고 알려지지 않은 단어로 이뤄진 시퀀스를 단어보다 작은 서브워드 단위로 인코딩하는 접근법을 소개합니다.
  • 방법은 문자단위 n-gram 모델과 byte pair encoding 알고리즘을 사용하여 영어에서 독일어, 러시아어로 바꾸는 기계번역 태스크의 BLEU 점수가 1.1에서 1.3으로 올랐습니다.

1. Introduction

3줄 요약

  • 기계번역 태스크에서 단어장의 크기는 30,000 ~ 50,000개의 한계인데, 희귀 단어 처리는 여전히 문제였고, 교착어, 합성어에서는 그 문제가 더 심했습니다.
  • 기계 번역의 OOV 문제는 단어 사전을 탐색하여 없으면 초기값을 반환하는 방식으로 처리하였는데 이 방식은 언어적 특성의 차이로 입력(english)과 출력(gemany)의 의미가 완전히 일치하지 않는 경우가 발생합니다.
  • 연구진은 NMT 모델들을 희귀 단어에 초기값을 반환하는 모델을 2가지 방법을 사용하여 개선하였습니다.
    • 단어들을 서브워드 단위로 인코딩합니다.
    • Byte-Pair-Encoding (BPE) 알고리즘을 적용합니다.