NLP Paper (11) - RoBERTa
Jan 12, 2022
»
NLP
[RoBERTa] A Robustly Optimized BERT Pretraining Approach
[RoBERTa] 강건하게 최적화된 BERT를 사전학습시키는 접근법
해당 번역본은 정식 번역본이 아니며 개인이 공부를 위해서 번역한 내용으로 많은 오역, 오타가 존재합니다. 이러한 점을 감안해주시고 읽어주시면 감사하겠습니다.
Abstract
- 해당 논문은 기존의 BERT 논문의 파생 연구로써 BERT는 훈련이 부족한 상태로 사전학습 시키는데 주요한 하이퍼파라미터들과 훈련시키는 데이터의 크기와 같은 요인들을 실험하였습니다.
Introduction
- 다양한 자기 지도 학습 방법들이 나오고 있는데 이 방법들에서 성능을 개선 시키는 부분을 결정하기 어렵습니다.
- 어려운 이유는 사전학습시 계산량이 많고 제한된 양의 파라미터를 튜닝하기 때문입니다.
- 해당 논문에서 제시하는 성능을 개선시키는 BERT 학습방법은 다음과 같습니다.
- 학습을 길게, 배치를 크게, 데이터를 많이 넣습니다.
- BERT에서 Next Sentence Prediction (NSP) 부분을 제거합니다.
- 더욱 긴 시퀀스 데이터를 학습시킵니다.
- 기존의 BERT 보다 더욱 다이나믹한 마스킹 패턴을 훈련데이터에 적용합니다.
- 모델의 성능을 비교하기 위한 새로운 데이터셋 (CC-NEWS) 도 만들어서 모델을 검증해보았습니다.
- 요약하자면 해당 논문에서 말하고자 하는 내용은 다음과 같습니다.
- 연구진은 BERT 디자인 선택의 중요성과 훈련 시키는 전략 그리고 소개하는 대안책들은 downstream task 에서의 더 나은 성능을 만들어 줄 것 입니다.
- CC-NEWS 데이터셋으로 모델을 검증할 수 있습니다.
- 연구진이 만든 마스크 언어 모델의 사전학습 방식이 남들보다 좋은 성능을 냈기에 올바른 디자인 선택이라 볼 수 있습니다.