Bitirme Projesi 5 - Rapor - Önceki Çalışmalar, Metot


1.     ÖNCEKİ ÇALIŞMALAR


Tanımlanan problemi çözmeye yönelik olarak zaman içerisinde birçok çalışmalar gerçekleştirilmiştir. Bu çalışmalar derin öğrenme uygulamalarından önceki çalışmalar ve derin öğrenme uygulamalarından sonraki çalışmalar olarak iki grupta incelenebilir. Derin öğrenme uygulamalarından önceki çalışmalar genellikle bir görüntü hakkında fikir sahibi olabilmek için var olan görüntü üzerinde çeşitli değişiklikler yapmak üzerine kurulmuştu. Bir görüntü üzerinde çeşitli işlemler yaparak görüntüde istenilen temanın ortaya çıkmasını sağlarken istenmeyen ayrıntılardan kurtulmak üzerine, genellikle doğrusal işlemler uygulanmıştır. Problemle bağlantısı bir görüntüdeki objeyi ve objenin özelliklerini ortaya çıkarma amacıdır. Bu çalışmaların en büyük eksikliği belirli veriler üzerinde kesinlikle doğru cevabı veriyorken bu veriler dışındaki örneklerde tamamen yetersiz kalmasıdır. Ancak bu çalışmalar derin öğrenme ile birleştirildiğinde sisteme yeni karşılaşılmış verilere karşı tahminde bulunabilme niteliği sağlanmış olur. Bu yazının genel teması gereği konu ile alakalı olarak derin öğrenme çalışmaları incelenmiştir.

Derin öğrenme ile görüntü sınıflandırmada kullanılan yöntemlerden biri derin konvolüsyonel sinir ağlarıdır [4] [5]. Bu projede de sıklıkla bahsedilecek olan bu yöntem derin öğrenme konusunda görüntülerin kullanımını kolaylaştırmıştır. Görüntülerin daha küçük boyutlu örneklerini oluşturabilmesi, görüntü hakkında fikir sunabilmesi ve sonuçlara daha hızlı götürmesi bakımından konvolüsyonel sinir ağları görüntülerin sınıflandırılmasında sıklıkla kullanılmaktadır.

Bu konuda temel çalışmalardan birini yapan Lecun ve çalışma arkadaşları [4] el yazısı tanıma için bir sınıflandırma sistemi geliştirmişlerdir. Bu sistemde Konvolüsyonel Sinir Ağlarını geniş bir şekilde tanımlamış ve LeNet-5 modelini oluşturmuşlardır.

LeNet-5 projesinden çok daha güncel olan ve Krizhevsky ve arkadaşlarının uygulamış oldukları ImageNet [5] modelinde ise 1000 farklı sınıf ile çalışılmıştır. Bu modelin büyük bir kısmını da Konvolüsyonel Sinir Ağları oluşturmaktadır.

İnsanların yeniden tanınma sisteminde kullanılan en yaygın yöntemlerden birisi hiç kuskusuz Siamese Ağıdır. Temelde bu sinir ağı etrafında şekillenen birçok farklı yöntem kullanılmıştır [6] [7] [8] [9] [10]. Siamese ağı iki görüntünün benzerliği hakkında tahminde bulunan ve konvolüsyonel sinir ağı ile anlam kazanan bir derin öğrenme yöntemidir.

Diğerlerinin atası sayılabilecek iki çalışma Yi ve arkadaşlarının yapmış olduğu [6] ve Li ve arkadaşlarının yapmış olduğu [7]’de; görüntülerde bulunan insanlar arasındaki benzerliği bulmaya yönelik çalışılmıştır. Yi ve arkadaşlarının görüntüyü parçalara ayırarak çalışması aradaki farkı oluşturmuştur. Bu DML (Deep Learning Metric) olarak nitelendirmişlerdir. Sonuçta Konvolüsyonel Sinir Ağları ve Siamese Ağı iki çalışma için de gerekli görülmüştür.

  Diğer çalışmalar birbirlerinin türevi olmakla birlikte Ahmed ve diğerlerinin çalışması [8] diğer iki çalışmaya [9] [10] ilham kaynağı olmuştur. [8]’de konvolüsyonel sinir ağı ile elde edilmiş olan matrisler için farklı bir mesafe fonksiyonu kullanma yöntemine gitmiştir. Bu mesafe fonksiyonu karşılıklı olarak iki görüntüde bulunan piksellerin komşuluk ilişkileri göz önünde bulundurularak hesaplanmıştır. Wu ve arkadaşlarının makalesinde [9] ise [8]’deki yöntemler farklı bir yol izlenerek takip edilmiştir. Konvolüsyonel sinir ağında ve karar mekanizmasındaki gizli katmanlarda değişiklikler yaparak bu konuya katkıda bulunmuşlardır. Son olarak Subramaniam, Chatterjee ve Mittal çalışmalarında [10] farklı bir mesafe fonksiyonu kullanmış bununla beraber [8.]’de gerçekleştirilen mesafe fonksiyonu ile paralel bir şekilde çalışan bir Siamese Ağı oluşturmuşlardır.

 

2.     METOT


Projeyi gerçeklemek amacıyla birden fazla eğitim modeli üzerinde çalışılmıştır. Bunlar bir görüntüde insan olup olmadığını tahmin etmek için geliştirilmiş olan İkili Sınıflandırma[İng. Binary Classification] ve iki görüntüde bulunan insanların benzer olup olmadıklarını tahmin etmek için kullanılacak olan Siamese Ağıdır. Bu iki model daha sonra alt başlıklar halinde ayrıntılı olarak ifade edilecektir.
Bu ağları oluşturabilmek ve eğitimlerini gerçekleştirmek için kullanılan teknolojiler Python programlama dili, Tensorflow ve Keras kütüphaneleridir. Tensorflow; çok boyutlu matrisler üzerinde sayısal hesaplamalar için kullanılan, bu işlemi gerçekleştirmek için veri akış grafikleri kullanan bir derin öğrenme kütüphanesidir. CPU yada GPU üzerinde verimli bir şekilde çalışmamıza olanak sağlar. Keras ise yapılacak olan hesaplama ve eğitimler için uygun olan modelleri tasarlamamızı sağlayan bir kütüphanedir. Bu kütüphaneler Phyton programlama dili üzerinde kullanılabilmektedir.





[4]LeCun, Yann, et al. "Gradient-based learning applied to document recognition." Proceedings of the IEEE 86.11 (1998): 2278-2324.

[5] Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "Imagenet classification with deep convolutional neural networks." Advances in neural information processing systems. 2012.

[6] Yi, Dong, et al. "Deep metric learning for person re-identification." Pattern Recognition (ICPR), 2014 22nd International Conference on. IEEE, 2014.

[7] Li, Wei, et al. "Deepreid: Deep filter pairing neural network for person re-identification." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014.

[8] Ahmed, Ejaz, Michael Jones, and Tim K. Marks. "An improved deep learning architecture for person re-identification." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.

[9] Wu, Lin, Chunhua Shen, and Anton van den Hengel. "Personnet: Person re-identification with deep convolutional neural networks." arXiv preprint arXiv:1601.07255 (2016).

[10] Subramaniam, Arulkumar, Moitreya Chatterjee, and Anurag Mittal. "Deep neural networks with inexact matching for person re-identification." Advances in Neural Information Processing Systems. 2016.

Yorumlar

Bu blogdaki popüler yayınlar

İşletim Sistemleri Günlüğüm-2 : PROCESS DURUMLARI (PROCESS STATES)

Bilgem Çakır ile Röportaj (Deneyim Mühim…)

Bitirme Projesi 6 - Rapor - İkili Sınıflandırma (Binary Classification)