• 사업팀 성과
  • -
  • 연구성과

 
제목 [학술대회] 남권희,김희섭 등/ Sequence-To-Sequence 모델을 활용한 고문서 자동 번역 작성일 2017-11-30
작성자 관리자 조회 910

유호상, 남권희*, 정병호, 김희섭*, 이민호. (2017). Sequence-To-Sequence 모델을 활용한 고문서 자동 번역. 대한전자공학회 학술대회, , 864-867.

(제2저자)


논문바로가기


초록

고문서를 이해하는 것은 역사적/문화적으로 매우 중 요하고 의미 있는 일이다. 하지만 전문가가 아닌 이상 일반 한자 표기 방식과 다른 초서체·구결 등으로 작성 된, 복잡한 문법적 규칙을 갖는 고문서를 이해하는 것 은 매우 힘들다. 따라서 고문서를 이해하는 작업은 전 적으로 전문가 인력에 의존적일 수밖에 없다. 하지만 최근 전문가 인력의 고령화가 심각한 문제로 대두되고 있어 이에 대한 대책 마련이 시급하다. 대량의 병렬 코퍼스로 학습된 인공 신경망 기반의 기계 번역 모델(Neural Machine Translation, NMT)이 이에 대한 해결책이 될 수 있다. 이들은 Sequence-To-Sequence (seq2seq) 구조를 갖는 인공신경망으로, 입력문장을 이 해하는 규칙과 출력문장을 생성하는 규칙을 스스로 학 습할 수 있으며, end-to-end 학습이 가능하기 때문에 대량의 병렬 코퍼스를 활용하여 빠른 시일 내에 자동 번역 시스템을 구축할 수 있다. 본 논문에서는 seq2seq 모델을 활용한 문장단위의 고 문서 자동 번역 모델을 구현한다. 공개된 가용 데이터 - 864 - 경북대학교 | IP: 155.***.194.97 | Accessed 2017/12/28 14:30(KST) 2017년 대한전자공학회 추계학술대회 논문집 의 한계로 인해 교지(敎旨)와 차정첩(差定帖) 형식의 고문서에 한하여 번역을 수행하는 모델을 구현한다.


Abstract

A lot of ancient documents written in Chinese character need to be translated. Translating these documents is quite laborious and time consuming for human translators owing to the voluminous nature and a complexity of the grammatical pattern. Recently proposed sequence-to-sequence(seq2seq) model that is a neural network type architecture and composed of two cells of Recurrent Neural Network acting as encoder-decoder shows the state-of-the-art performance in translation. They can translate sentences with complex grammatical pattern quite well. In this work, we propose automatic translation system with seq2seq model for specific ancient documents "Kyo Ji(敎旨)" and ‘Chajung Cheop(差定帖)’ written in Chinese character.


첨부파일 첨부파일 없음
목록
이전글, 다음글
이전글  남권희 교수, 김지완 / 17세기 태인 용장사 간행 불서의 서지적 분석
다음글  [학술저서] 남권희 교수 / 전임연구원 전재동 『嶺南樓詩韻』