Jakie korzyści mają Vision Transformers nad "starymi i dobrymi" Convolutional Neural Networks (ViT nad CNN)? Co nowego, lepszego wnosi ViT? (oprócz wysokiego skomplikowania i dużych wymagań od hardware).
Jakie korzyści mają Vision Transformers nad "starymi i dobrymi" Convolutional Neural Networks (ViT nad CNN)? Co nowego, lepszego wnosi ViT? (oprócz wysokiego skomplikowania i dużych wymagań od hardware).