【论文阅读】DeiT | Training data-efficient image transformers & distillation through attention
本文主要对Facebook最近提出来的DeiT模型进行阅读分析。一、动机:DeiT解决什么问题? 现有的基于Transformer的分类模型ViT需要在海量数据上(JF
7月前840
本文主要对Facebook最近提出来的DeiT模型进行阅读分析。一、动机:DeiT解决什么问题? 现有的基于Transformer的分类模型ViT需要在海量数据上(JF
这篇文章主要是通过一些训练策略和知识蒸馏来提升模型的训练速度和性能效果。 原文链接:Training data-efficient image transformers & distillation thro
