AI 11

Donut : Document Understanding Transformer without OCR 논문리뷰

Abstract 2021년 11월 30일에 네이버 Clova AI 연구팀에서 제출된 논문입니다. 기존의 Visual Document Understanding(VDU)은 OCR을 base로 해서 동작하였기 때문에 계산 cost가 높고 OCR Error에 의한 성능하락이 있어왔습니다. 따라서 해당 논문에서는 OCR 프레임워크가 base에 없는 end-to-end 방식의 새로운 VDU 모델을 제안합니다. 또한 large-scale의 실제 문서이미지에 대한 의존을 줄이기 위해서 Synthetic Document Generator(SynthDog)도 같이 소개하며, 이를 이용해 모델을 pretrain 하였다고 합니다. Donut은 다양한 공공 및 사적 데이터셋들에 대해 시행한 Document Understandi..

AI 2021.12.06

Perceiver IO 논문 리뷰

Abstract 구글 딥마인드에서 제안한 기존 Perceiver의 단점을 보완한 모델입니다. Perceiver 모델은 어떠한 데이터 형태도 처리할 수 있으면서 계산과 메모리 사용이 입력 사이즈에 선형적으로 작동하지만(기존의 transformer는 데이터가 클 수록 느려짐) 간단한 output 형태만 출력이 가능했습니다. Perceiver IO 모델은 output도 latent space를 decoding 과정을 거쳐서 임의의 형태를 출력할 수 있도록 한 모델입니다. NLP, Vision, Audio나 Multi-modal 영역에서도 좋은 결과를 보였습니다. Perceiver IO Architecture 논문에서 제시하는 Architecture를 대략적인 과정을 설명하겠습니다. 크게 Encoding, Pr..

AI 2021.09.24

YOLO v5 Pretrained Pytorch 모델 사용하기

개요 github.com/ultralytics/yolov5 ultralytics/yolov5 YOLOv5 in PyTorch > ONNX > CoreML > TFLite. Contribute to ultralytics/yolov5 development by creating an account on GitHub. github.com Multiple Object Detection을 위해 고안된 모델인 YOLO v5를 사용해보겠습니다. 사용시 다른 프로젝트에서 쉽게 적용할 수 있도록 Model Load와 Image Predction 부분만 실행되도록 detect.py 코드를 수정했습니다. Visual Studio Code, Git, Ananconda(파이썬 가상환경 관리)가 설치되어있고 VS Code에서 An..

AI 2021.03.26

SEER - Pretrainig of Visual Features in the Wild 논문 리뷰

개요 2021년 3월 5일에 Facebook AI Research 팀에서 발표된 논문입니다. 논문 원제는 Self-supervised Pretraining of Visual Features in the Wild 입니다. arxiv.org/pdf/2103.01988v2.pdf 최근에 Self-Supervised Learning(자기지도학습) 분야는 꽤 발전해서 SimCLR, BYOL, SwAV의 방법들은 Supervised Learning과의 격차를 매우 좁혔습니다. 이 논문에서는 SElf-supERvised(SEER) 모델을 제시합니다. SEER는 Self-Supervised Learning 방법으로 SwAV를 사용하였고 모델 Architecture는 RegNetY를 사용하였으며 가장 큰 특징은 랜덤하게..

AI 2021.03.23

Lambda Networks 논문 리뷰

1. 개요 Google Research가 ICLR 2021에서 발표한 Lambda Networks에 대한 논문 리뷰입니다. 람다레이어는 입력과 다른 contextual한 정보에 대한 long-range 상호작용을 self-attention 없이 구현했습니다. 이 레이어는 linear attention과 attention map을 사용하지 않는다는 점에서는 비슷하지만 위치정보와 내용정보의 상호작용을 모델링할 수 있습니다. 결과를 보면 LambdaResNets은 EfficientNets보다 3.2 - 4.4x 빠르며 비슷한 정확도를 보였습니다. 2. 특징 데이터에서 long-range 정보를 모델링하는 것은 머신러닝에서 중요한 문제입니다. Self-attention은 이러한 문제를 해결했지만 메모리의 높은 ..

AI 2021.03.02

TransUNet - Transformer를 적용한 Segmentation Model 논문 리뷰

개요 2월 8일에 나온 Medical Image Segmentation을 목적으로 만들어진 TransUNet입니다. TransUNet은 기존의 발표된 ViT(Vision Transformer)를 이용해 인코딩 후 디코더를 이용해 Upsampling하여 Segmentation을 진행합니다. U-Net이 들어간 이름에서 알 수 있듯이 Upsampling시 기존 U-Net처럼 Skip Connection을 이용해 Segmentation Detail을 더 높여주는 방식을 취했습니다. TransUNet은 multi-organ CT Segmentation에서 State-of-the-arts 성능을 달성했습니다. Architecture TransUNet의 Architecture입니다. 여기서 중요한 점은 다음과 같습..

AI 2021.02.25

Vision Transfromer (ViT) Pytorch 구현 코드 리뷰 - 3

github.com/FrancescoSaverioZuppichini/ViT FrancescoSaverioZuppichini/ViT Implementing Vi(sion)T(transformer). Contribute to FrancescoSaverioZuppichini/ViT development by creating an account on GitHub. github.com 위 코드를 참고하여 리뷰하였습니다. 개요 지난 글에서 patch embedding에 이어 multi head attention까지 진행하였고 이제는 VIT Encoder 구조를 구현해 보겠습니다. Residual Block class ResidualAdd(nn.Module): def __init__(self, fn): super()..

AI 2021.02.22

Vision Transfromer (ViT) Pytorch 구현 코드 리뷰 - 2

github.com/FrancescoSaverioZuppichini/ViT FrancescoSaverioZuppichini/ViT Implementing Vi(sion)T(transformer). Contribute to FrancescoSaverioZuppichini/ViT development by creating an account on GitHub. github.com 위 코드를 참고하여 리뷰했습니다. 개요 패치임베딩까지 진행하였고 이번에는 Multi Head Attention을 진행해보도록 하겠습니다. MHA(Multi Head Attention) MHA는 위 그림과 같이 진행됩니다. VIT에서의 MHA는 QKV가 같은 텐서로 입력됩니다. 입력텐서는 3개의 Linear Projection을 통해..

AI 2021.02.22

Vision Transfromer (ViT) Pytorch 구현 코드 리뷰 - 1

개요 이미지를 패치들로 나누어 Transformer Encoder에 적용한 Vision Transformer의 구현코드 리뷰입니다. github.com/FrancescoSaverioZuppichini/ViT FrancescoSaverioZuppichini/ViT Implementing Vi(sion)T(transformer). Contribute to FrancescoSaverioZuppichini/ViT development by creating an account on GitHub. github.com 위 원본링크에 쉽고 자세하게 구현되어 있으나 공부목적으로 작성된 코드 리뷰입니다. 위 코드저자는 Einstein Notation 라이브러리들을 사용하여 각종 텐서계산을 구현하고 있습니다. 이러한 Ein..

AI 2021.02.19

Semantic Segmentation information Links

Semantic Segmentation 초기 FCN부터 Transformer Architecture를 사용한 최신 TransUnet까지 정보를 찾을 수 있는 링크들을 정리한 글입니다. FCN paper review : medium.com/@msmapark2/fcn-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-fully-convolutional-networks-for-semantic-segmentation-81f016d76204 FCN 논문 리뷰 — Fully Convolutional Networks for Semantic Segmentation 딥러닝 기반 OCR 스터디 — FCN 논문 리뷰 medium.com U-Net paper review : medium.com/@msmapa..

AI 2021.02.19