[중국] YITU Technology, 대용어 참조 해결을 위한 PreCo 발표
김봉석 기자
2018-11-04 오후 3:59:02
중국 기술스타트업인 YITU Technology에 따르면 자연어를 처리하는데 유용한 대용어 참조 해결을 위한 대규모 데이터 세트인 PreCo를 발표했다.

지능형 의료기록 및 음성인식 분야에서 수년간 자연 언어 처리 응용프로그램을 연구해 온 결과다. 데이터 세트는 약 4만개의 문서와 주로 영어를 사용하는 미취학 아동의 어휘에서 나온 1300만 단어로 구성됐다.  

지난 5년 동안 대용어 참조 해결을 위해 가장 많이 사용된 데이터 세트인 OntoNotes보다 약 10배 더 큰 규모이다. PreCo는 기존 데이터 세트의 몇가지 한계를 해결함으로써 대용어 참조 해결의 핵심 과제를 구현하도록 설계된 것으로 평가 받았다.

YITU Technology는  사용자 정의 오류와 주석 규칙으로 인한 모호성을 줄임으로써 데이터 세트의 주석 품질을 지속적으로 향상시킬 계획이다. 또한 PreCo의 문서에 대한 질문 및 답변과 함께 코어 어레이션 해석 주석을 제공할 방침이다.

참고로 2018년 10월 31일부터 11월 4일까지 벨기에 브뤼셀의 스퀘어 브루셀 컨센션센터(Square Brussels Convention Center)에서 '자연언어 처리 경험적 방법회의 (EMNLP 2018)'가 개최됐다.  


▲ China-YTU-PreCo-homepage

▲브뤼셀에서 개최된 EMNLP 2018에서 YITU의 PreCo발표(출처 : 홈페이지)
저작권자 © 엠아이앤뉴스, 무단전재 및 재배포 금지
관련 기사
동·중앙아시아 분류 내의 이전기사