MFVT: Multilevel Feature Fusion Vision Transformer and RAMix Data Augmentation for Fine-Grained Visual Categorization

The introduction and application of the Vision Transformer (ViT) has promoted the development of fine-grained visual categorization (FGVC). However, there are some problems when directly applying ViT to FGVC tasks. ViT only classifies using the class token in the last layer, ignoring the local and l...

Full description

Bibliographic Details
Main Authors:	Xinyao Lv, Hao Xia, Na Li, Xudong Li, Ruoming Lan
Format:	Article
Language:	English
Published:	MDPI AG 2022-10-01
Series:	Electronics
Subjects:	fine-grained visual categorization Vision Transformer feature fusion data augmentation
Online Access:	https://www.mdpi.com/2079-9292/11/21/3552

Internet

https://www.mdpi.com/2079-9292/11/21/3552

MFVT: Multilevel Feature Fusion Vision Transformer and RAMix Data Augmentation for Fine-Grained Visual Categorization

Internet

Similar Items