Ai 8

Perceiver IO 논문 리뷰

Abstract 구글 딥마인드에서 제안한 기존 Perceiver의 단점을 보완한 모델입니다. Perceiver 모델은 어떠한 데이터 형태도 처리할 수 있으면서 계산과 메모리 사용이 입력 사이즈에 선형적으로 작동하지만(기존의 transformer는 데이터가 클 수록 느려짐) 간단한 output 형태만 출력이 가능했습니다. Perceiver IO 모델은 output도 latent space를 decoding 과정을 거쳐서 임의의 형태를 출력할 수 있도록 한 모델입니다. NLP, Vision, Audio나 Multi-modal 영역에서도 좋은 결과를 보였습니다. Perceiver IO Architecture 논문에서 제시하는 Architecture를 대략적인 과정을 설명하겠습니다. 크게 Encoding, Pr..

AI 2021.09.24

SEER - Pretrainig of Visual Features in the Wild 논문 리뷰

개요 2021년 3월 5일에 Facebook AI Research 팀에서 발표된 논문입니다. 논문 원제는 Self-supervised Pretraining of Visual Features in the Wild 입니다. arxiv.org/pdf/2103.01988v2.pdf 최근에 Self-Supervised Learning(자기지도학습) 분야는 꽤 발전해서 SimCLR, BYOL, SwAV의 방법들은 Supervised Learning과의 격차를 매우 좁혔습니다. 이 논문에서는 SElf-supERvised(SEER) 모델을 제시합니다. SEER는 Self-Supervised Learning 방법으로 SwAV를 사용하였고 모델 Architecture는 RegNetY를 사용하였으며 가장 큰 특징은 랜덤하게..

AI 2021.03.23

Lambda Networks 논문 리뷰

1. 개요 Google Research가 ICLR 2021에서 발표한 Lambda Networks에 대한 논문 리뷰입니다. 람다레이어는 입력과 다른 contextual한 정보에 대한 long-range 상호작용을 self-attention 없이 구현했습니다. 이 레이어는 linear attention과 attention map을 사용하지 않는다는 점에서는 비슷하지만 위치정보와 내용정보의 상호작용을 모델링할 수 있습니다. 결과를 보면 LambdaResNets은 EfficientNets보다 3.2 - 4.4x 빠르며 비슷한 정확도를 보였습니다. 2. 특징 데이터에서 long-range 정보를 모델링하는 것은 머신러닝에서 중요한 문제입니다. Self-attention은 이러한 문제를 해결했지만 메모리의 높은 ..

AI 2021.03.02

TransUNet - Transformer를 적용한 Segmentation Model 논문 리뷰

개요 2월 8일에 나온 Medical Image Segmentation을 목적으로 만들어진 TransUNet입니다. TransUNet은 기존의 발표된 ViT(Vision Transformer)를 이용해 인코딩 후 디코더를 이용해 Upsampling하여 Segmentation을 진행합니다. U-Net이 들어간 이름에서 알 수 있듯이 Upsampling시 기존 U-Net처럼 Skip Connection을 이용해 Segmentation Detail을 더 높여주는 방식을 취했습니다. TransUNet은 multi-organ CT Segmentation에서 State-of-the-arts 성능을 달성했습니다. Architecture TransUNet의 Architecture입니다. 여기서 중요한 점은 다음과 같습..

AI 2021.02.25

Vision Transfromer (ViT) Pytorch 구현 코드 리뷰 - 2

github.com/FrancescoSaverioZuppichini/ViT FrancescoSaverioZuppichini/ViT Implementing Vi(sion)T(transformer). Contribute to FrancescoSaverioZuppichini/ViT development by creating an account on GitHub. github.com 위 코드를 참고하여 리뷰했습니다. 개요 패치임베딩까지 진행하였고 이번에는 Multi Head Attention을 진행해보도록 하겠습니다. MHA(Multi Head Attention) MHA는 위 그림과 같이 진행됩니다. VIT에서의 MHA는 QKV가 같은 텐서로 입력됩니다. 입력텐서는 3개의 Linear Projection을 통해..

AI 2021.02.22

Vision Transfromer (ViT) Pytorch 구현 코드 리뷰 - 1

개요 이미지를 패치들로 나누어 Transformer Encoder에 적용한 Vision Transformer의 구현코드 리뷰입니다. github.com/FrancescoSaverioZuppichini/ViT FrancescoSaverioZuppichini/ViT Implementing Vi(sion)T(transformer). Contribute to FrancescoSaverioZuppichini/ViT development by creating an account on GitHub. github.com 위 원본링크에 쉽고 자세하게 구현되어 있으나 공부목적으로 작성된 코드 리뷰입니다. 위 코드저자는 Einstein Notation 라이브러리들을 사용하여 각종 텐서계산을 구현하고 있습니다. 이러한 Ein..

AI 2021.02.19

Semantic Segmentation information Links

Semantic Segmentation 초기 FCN부터 Transformer Architecture를 사용한 최신 TransUnet까지 정보를 찾을 수 있는 링크들을 정리한 글입니다. FCN paper review : medium.com/@msmapark2/fcn-%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-fully-convolutional-networks-for-semantic-segmentation-81f016d76204 FCN 논문 리뷰 — Fully Convolutional Networks for Semantic Segmentation 딥러닝 기반 OCR 스터디 — FCN 논문 리뷰 medium.com U-Net paper review : medium.com/@msmapa..

AI 2021.02.19

Resnet 18-layer pytorch 코드 리뷰

개요 Residual block을 사용한 Resnet의 코드 리뷰입니다. Resnet은 Block으로 되어있기 때문에 가장 간단한 resnet18을 이해하면 나머지도 이해할 수 있습니다. 원 코드는 torchvision 코드를 참조하였습니다. 모든 resnet을 구현한 코드는 다음을 참조하시기 바랍니다. https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py pytorch/vision Datasets, Transforms and Models specific to Computer Vision - pytorch/vision github.com 저는 공부하는 입장으로서 모든 분들이 최대한 이해하기 쉽도록 불필요한 코드를 제거하였습니..

AI 2021.02.16