Dünyanın bazı ülkelerinde yoksulluk veya gıda üzerinde kalite kontrolünün olmaması ile ilgili nedenlerden dolayı, hala gıda tağşişi var. Eşek veya domuz eti gibi düşük maliyetli etler kuzu veya sığır eti olarak pazarlanmaktadır. Bu ahlaki açıdan tehlikelidir, ancak belirli et türlerine alerjisi olan veya dini çekinceleri olan bazı kişiler için daha tehlikeli olabilir. Yapay zeka tekniklerinin hızla gelişmesiyle farklı et türleri arasında ayrım yapabilen bir model oluşturmak mümkün. Bu çalışma, farklı kırmızı et türleri arasında ayrım yapabilen bir model oluşturmayı amaçlamaktadır. Aynı zamanda, bilgisayarlı görü alanındaki en son teknoloji CNN ile transformatör mimarisi arasındaki performansı karşılaştırmayı da amaçlamaktadır. Bu amaç için, çevrimiçi bir depodan sınırlı bir veri seti elde edildi. Veri seti sığır, at ve domuz etlerinin RGB görüntülerini içermektedir. Görüntüler işlendi ve çeşitli veri büyütme teknikleri uygulandı. Daha sonra ince ayarlı ve ayarsız görüntü dönüştürücü ViT ve mobil ağ modelleri üretildi. Modellerin davranışını ölçmek için çeşitli performans değerlendirme kriterleri uygulandı. En iyi test doğruluğu, ince ayarlı ViT modeli tarafından elde edilen %97'dir. Bu çalışma, dönüştürücü mimarisinin ve özellikle ince ayarlı ViT modelinin sınırlı bir veri setinde bile görüntü sınıflandırma alanlarında uygulanmasının etkinliğini göstermiştir.
Bilgisayarla görme ince ayar Vision Transformer ViT mobilenet.
For reasons related to poverty or lack of quality control over food in some countries of the world, there is still food adulteration. Low-cost meats such as donkey or pork are marketed as lamb or beef. This is morally dangerous but may be more dangerous for some people who are allergic to certain types of meat or who have religious reservations. With the rapid development of artificial intelligence techniques, it is possible to build a model capable of differentiating between different types of meat. This study aims to build a model capable of differentiating between different types of red meat. It also aims to compare performance between the very state of art CNN in computer vision with the transformer architecture. For this goal, a limited dataset from an online repository was obtained. The dataset contains RGB images of beef, horse, and pork meats. The images were processed, and various data augmentation techniques were applied. Then vision transformer ViT and mobile net models with and without fine-tuning were built. To measure the models' behavior, several performance evaluation criteria were applied. The best testing accuracy is 97% achieved by the fine-tuned ViT model. This study showed the effectiveness of applying the transformer architecture and especially the fine-tuned ViT model in the areas of image classification even on a limited dataset.
Computer vision fine-tuning Vision Transformer ViT mobilenet
Birincil Dil | İngilizce |
---|---|
Konular | Mühendislik |
Bölüm | Makaleler |
Yazarlar | |
Yayımlanma Tarihi | 31 Mayıs 2022 |
Yayımlandığı Sayı | Yıl 2022 |