Abstract 2021년 11월 30일에 네이버 Clova AI 연구팀에서 제출된 논문입니다. 기존의 Visual Document Understanding(VDU)은 OCR을 base로 해서 동작하였기 때문에 계산 cost가 높고 OCR Error에 의한 성능하락이 있어왔습니다. 따라서 해당 논문에서는 OCR 프레임워크가 base에 없는 end-to-end 방식의 새로운 VDU 모델을 제안합니다. 또한 large-scale의 실제 문서이미지에 대한 의존을 줄이기 위해서 Synthetic Document Generator(SynthDog)도 같이 소개하며, 이를 이용해 모델을 pretrain 하였다고 합니다. Donut은 다양한 공공 및 사적 데이터셋들에 대해 시행한 Document Understandi..