본문 바로가기

데이터과학/업계 이야기20

영어를 매개로 하지 않고 100개 언어를 직접 번역하는 AI 모델 Facebook AI가 영어 데이터에 의존하지 않고 100 개 언어 쌍을 번역 할 수 있는 최초의 다국어 기계 번역 (MMT) 모델 인 M2M-100을 소개했습니다. 여기에서 오픈 소스 코드를 확인할 수 있습니다. 예를 들어 중국어를 프랑스어로 번역 할 때 대부분의 영어 중심의 다국어 모델은 영어 학습 데이터가 가장 널리 사용 가능하기 때문에 중국어에서 영어로, 영어에서 프랑스어로 학습합니다. Facebook AI 모델은 의미를 더 잘 보존하기 위해 중국어에서 프랑스어 데이터로 직접 학습합니다. 기계 번역을 평가하는 데 널리 사용되는 BLEU 측정 항목에서 영어 중심 시스템보다 10 점 더 우수한 성능을 보입니다. M2M-100은 총 2,200 개의 언어 방향으로 교육을 받았으며, 이는 이전 최고의 영어.. 2020. 11. 11.
실리콘 밸리에서도 주목받고 있는 토폴로지 데이터 분석 Slideshare를 통해서 토폴로지 데이터 분석(Topological Data Analysis, TDA)에 대한 발표 자료를 2014년 4월에 공유했다. 슬라이드 쉐어에서는 나의 슬라이드를 본 사람들이 어떤 경로로 찾아왔는지에 대한 정보와 어느나라 사람들이 주요하게 관심을 갖고 있는지의 여부를 자동으로 분석해주는 기능이 있어서 한번 살펴봤다.한국 사람중에 나의 슬라이드를 본 사람들은 대부분 얼굴책 등에서 내가 공유한 것을 보고 링크를 타고 온 사람들이라고 생각된다. 하지만 미국이나 독일에서 슬라이드를 본 사람은 분명히 검색을 통해서 나의 토폴로지 데이터 분석 슬라이드를 찾았을 것이다. 또한, 아래 그림 중에서 국가별로 슬라이드를 '본 사람 수'의 그래프에서도 볼 수 있듯이 토폴로지 분석은 미국, 독일,.. 2015. 3. 18.
728x90