Transformer 4

Donut : Document Understanding Transformer without OCR 논문리뷰

Abstract 2021년 11월 30일에 네이버 Clova AI 연구팀에서 제출된 논문입니다. 기존의 Visual Document Understanding(VDU)은 OCR을 base로 해서 동작하였기 때문에 계산 cost가 높고 OCR Error에 의한 성능하락이 있어왔습니다. 따라서 해당 논문에서는 OCR 프레임워크가 base에 없는 end-to-end 방식의 새로운 VDU 모델을 제안합니다. 또한 large-scale의 실제 문서이미지에 대한 의존을 줄이기 위해서 Synthetic Document Generator(SynthDog)도 같이 소개하며, 이를 이용해 모델을 pretrain 하였다고 합니다. Donut은 다양한 공공 및 사적 데이터셋들에 대해 시행한 Document Understandi..

AI 2021.12.06

Perceiver IO 논문 리뷰

Abstract 구글 딥마인드에서 제안한 기존 Perceiver의 단점을 보완한 모델입니다. Perceiver 모델은 어떠한 데이터 형태도 처리할 수 있으면서 계산과 메모리 사용이 입력 사이즈에 선형적으로 작동하지만(기존의 transformer는 데이터가 클 수록 느려짐) 간단한 output 형태만 출력이 가능했습니다. Perceiver IO 모델은 output도 latent space를 decoding 과정을 거쳐서 임의의 형태를 출력할 수 있도록 한 모델입니다. NLP, Vision, Audio나 Multi-modal 영역에서도 좋은 결과를 보였습니다. Perceiver IO Architecture 논문에서 제시하는 Architecture를 대략적인 과정을 설명하겠습니다. 크게 Encoding, Pr..

AI 2021.09.24

TransUNet - Transformer를 적용한 Segmentation Model 논문 리뷰

개요 2월 8일에 나온 Medical Image Segmentation을 목적으로 만들어진 TransUNet입니다. TransUNet은 기존의 발표된 ViT(Vision Transformer)를 이용해 인코딩 후 디코더를 이용해 Upsampling하여 Segmentation을 진행합니다. U-Net이 들어간 이름에서 알 수 있듯이 Upsampling시 기존 U-Net처럼 Skip Connection을 이용해 Segmentation Detail을 더 높여주는 방식을 취했습니다. TransUNet은 multi-organ CT Segmentation에서 State-of-the-arts 성능을 달성했습니다. Architecture TransUNet의 Architecture입니다. 여기서 중요한 점은 다음과 같습..

AI 2021.02.25

Vision Transfromer (ViT) Pytorch 구현 코드 리뷰 - 2

github.com/FrancescoSaverioZuppichini/ViT FrancescoSaverioZuppichini/ViT Implementing Vi(sion)T(transformer). Contribute to FrancescoSaverioZuppichini/ViT development by creating an account on GitHub. github.com 위 코드를 참고하여 리뷰했습니다. 개요 패치임베딩까지 진행하였고 이번에는 Multi Head Attention을 진행해보도록 하겠습니다. MHA(Multi Head Attention) MHA는 위 그림과 같이 진행됩니다. VIT에서의 MHA는 QKV가 같은 텐서로 입력됩니다. 입력텐서는 3개의 Linear Projection을 통해..

AI 2021.02.22