-
Facebook AI가 영어 데이터에 의존하지 않고 100 개 언어 쌍을 번역 할 수 있는 최초의 다국어 기계 번역 (MMT) 모델 인 M2M-100을 소개했습니다. 여기에서 오픈 소스 코드를 확인할 수 있습니다.
-
예를 들어 중국어를 프랑스어로 번역 할 때 대부분의 영어 중심의 다국어 모델은 영어 학습 데이터가 가장 널리 사용 가능하기 때문에 중국어에서 영어로, 영어에서 프랑스어로 학습합니다. Facebook AI 모델은 의미를 더 잘 보존하기 위해 중국어에서 프랑스어 데이터로 직접 학습합니다. 기계 번역을 평가하는 데 널리 사용되는 BLEU 측정 항목에서 영어 중심 시스템보다 10 점 더 우수한 성능을 보입니다.
-
M2M-100은 총 2,200 개의 언어 방향으로 교육을 받았으며, 이는 이전 최고의 영어 중심의 다국어 모델보다 10 배 더 많은 것입니다. M2M-100을 배포하면 수십억 명의 사람들, 특히 리소스가 부족한 언어를 사용하는 사람들의 번역 품질이 향상됩니다.
-
아래 내용은 100 개 언어에 대한 보다 다양한 MMT 학습 데이터 세트 및 모델을 구축 한 방법에 대한 세부 정보를 설명입니다. 또한 다른 연구자들이 다국어 모델을 재현하고 발전시킬 수 있도록 모델과 교육 및 평가를 위한 툴을 출시합니다.
최근 Facebook은 적은 자원을 사용하는 기계 번역을 개발한 덕분에 뉴스 피드에서 매일 평균 200 억 건의 번역을 지원하고 있습니다.
일반적인 MT 시스템은 각 언어 및 각 작업에 대해 별도의 AI 모델을 구축하는 방법을 채용하고 있으며,이러한 접근 방식은 사람들이 수십억 개의 게시물에 160 개 이상의 언어로 콘텐츠를 게시하는 Facebook에는 효과적으로 못한 방법입니다. 고급 다국어 시스템은 한 번에 여러 언어를 처리 할 수 있지만, 영어 데이터에 의존하여 출발어와 도착어 간의 오류를 최소화 하는 방법으로 정확성이 떨어집니다. 커뮤니티에 더 나은 서비스를 제공하기 위해 모든 언어를 번역 할 수있는 하나의 다국어 기계 번역 (MMT) 모델이 필요합니다. 그 중 거의 3 분의 2는 영어 이외의 언어를 사용합니다.
Facebook에서 수년간의 MT 연구의 정점에서, 영어 중심 데이터에만 의존하지 않고 모든 방향으로 100x100 언어를 직접 번역 할 수있는 최초의 단일 대규모 MMT 모델을 발표하게되어 기쁩니다. 우리의 단일 다국어 모델은 기존의 이중 언어 모델만큼의 성능을 발휘하며 영어 중심의 다국어 모델에 비해 10 BLEU 포인트의 성능 향상을 달성했습니다.
Facebook에서는 새로운 데이터 마이닝 전략으로 100가지 언어에 대해 75억 개의 문장을 획득하여 세계 최초의 진정한 "다-대-다" 번역 데이터 세트를 구축했습니다. 확장가능한 기술을 사용하여 150억 개의 매개 변수가 있는 범용 모델을 구축했습니다. 모델은 여기를 통해서 확인할 수 있습니다.
수천개의 언어 번역 방향에 대한 수억 개의 문장 마이닝
다-대-다 MMT 모델을 구축하는 가장 큰 장애물 중 하나는 영어를 포함하지 않는 임의의 번역 방향에 대해 대량의 양질의 문장 쌍(병렬 문장이라고도 함)을 큐레이팅하는 것입니다. 프랑스어에서 중국어로 번역하는 것보다 중국어에서 영어로, 영어에서 프랑스어로 번역을 찾는 것이 훨씬 쉽습니다. 또한 훈련에 필요한 데이터의 양은 분역을 지원하는 언어의 수에 따라 2차적으로 증가합니다. 예를 들어, 각 방향에 대해 1천만 개의 문장 쌍이 필요한 경우 10개 언어에 대해 1B 문장 쌍을, 100 개 언어에 대해 100B 문장 쌍을 마이닝 해야합니다.
모든 언어를 위한 하나의 다국어 모델을 향한 길
수년 동안 AI 연구자들은 모든 언어를 이해할 수있는 하나의 범용 모델을 구축하기 위해 노력해 왔습니다. 모든 언어, 방언 및 양식을 지원하는 단일 모델은 더 많은 사람들에게 더 나은 서비스를 제공하고, 번역을 최신 상태로 유지하며, 수십억 명의 사람들을 위한 새로운 경험을 동등하게 만드는 데 도움이 될 것입니다. 이 작업은 우리들이 목표에 더 가까워지게 만듭니다.
INFO: >>[원문읽기](https://about.fb.com/news/2020/10/first-multilingual-machine-translation-model/)
'데이터과학 > 업계 이야기' 카테고리의 다른 글
시계열 데이터 분석 및 예측을 위한 완벽한 가이드 (0) | 2020.12.11 |
---|---|
코호트 retention을 통한 고객 고객평생가치 (LTV) 추정 (0) | 2020.11.14 |
Deep Few-Shot 이상탐지 (0) | 2020.11.11 |
디지털 광고에서 데이터 과학자의 역할 (0) | 2020.11.11 |
실리콘 밸리에서도 주목받고 있는 토폴로지 데이터 분석 (0) | 2015.03.18 |