Bitirme Projesi 4 - Rapor - Özet, Giriş
ÖZET
İnsan yeninden tanıma işlemi iki farklı
görüntüde tespit edilen insanları eşleştirme görevini kapsamaktadır. Bu
bağlamda projenin amacı verilen bir görüntünün insan görüntüsü olup olmadığını
tespit etmek ve insan görüntüsü mevcut ise elde var olan diğer insan
görüntüleriyle karşılaştırarak eşleştirme işlemini gerçekleştirmektir. Bu
bağlamda Konvolüsyonel Sinir Ağı tabanlı Derin Öğrenme yöntemleri olan İkili
Sınıflandırma ve Siamese Ağı kullanılmıştır. İkili Sınıflandırma, görüntüde
insanın var olup olmadığına karar vermek için kullanılırken Siamese Ağı
görüntüleri eşleme işlemi için kullanılmıştır. Yapılan testler sonucunda bir
görüntüde insan olup olmadığı %85 doğruluk oranıyla tespit edilebilmektedir.
İki görüntünün eşleştirilmesi işleminde doğruluk oranı %60 olarak
bulunmuştur.
1. GİRİŞ
Kaybolan insanların bulunabilmesi ve hatta suçluların
izinin sürülebilmesi için kuşkusuz tespit edilen kişinin kameralar üzerinden
takip edilebilmesi gerekmektedir. Bu amaç doğrultusunda birçok alt problem
meydana gelmiştir. Bu yazının konusunu oluşturan insanların yeniden tanınması
ihtiyacı da bu problemlerden biridir. Daha kapsamlı bir ifadeyle bir görüntüde
yer alan bir insanın başka bir görüntüde bulunup bulunmadığını tespit etme
işine insan yeniden tanıma denir. Bu
işlemin başarıyla gerçekleştirilmesi durumunda farklı kameralardan algılanmış
iki insanın aynı insan olup olmadığı tespit edilebilecek ve daha da önemlisi bu
tespit sonucunda insanların takibi sağlanabilecektir.
Proje kapsamında çözümü aranan ana problem;
bir insan görüntüsü verildiği takdirde görüntüde bulunan insan figürünün elde
bulunan insan görüntüleriyle karşılaştırılması durumunda, şayet bu figür eldeki
verilerde mevcutsa, sistemin vereceği ilk dört tahmin içerisinde istenilen
insan figürünün bulunup bulunmamasıdır. Problem çözümü için derin öğrenme
metotlarından İkili Sınıflandırma [İng. Binary Classification] ve Siamese Ağı kullanılmaktadır. Bu iki
yapı bu başlığın devam eden kısımlarında kısmen anlatılırken Metot başlığı
altında detaylı bir şekilde ifade edilecektir. Problemin çözümü sonucunda
amaçlanan sistemin genel görüntüsü ise şekil-1.1’de
gösterilmiştir.
Şekil 1.1: Sistemin
Genel Şeması: İnsan yeniden tanıma problemi için amaçlanan sistem
gösterilmiştir. Sisteme verilen bir görüntünün eldeki görüntülerle
karşılaştırılarak benzer dört görüntünün sunulması ifade edilmektedir.
Elbette ki bu ana problemin çözümü için
birçok alt problemin de çözümü gerekmektedir. Bu problemlerden ilki sistemin,
verilen görüntünün içeriği hakkında bir yargıda bulunamamasıdır. Bir insan bir
görüntüye baktığında o görüntünün içeriği hakkında çeşitli bilgiler verebilir.
Ancak bir makine için bu görüntü sayılardan oluşan anlamsız bir matristen başka
bir şey değildir. Bu problemin çözümü, görüntüyü temsil edecek ve makine için
anlamlı olabilecek sayılar elde etmektir. Bu sayıların oluşturduğu tek boyutlu
diziye o görüntünün özellik yada
öznitelik vektörü denir. Özellik vektörünün oluşturulması işlemi ise öznitelik çıkarımı [İng. Feature Extraction] olarak adlandırılır. Bu işlem için
görüntünün yapısına ve içeriğine göre değişiklik gösteren birçok yöntem mevcut
olmakla birlikte projede kullanılmış olan yöntem Konvolüsyonel Sinir Ağları [İng. Convolutional Neural Network]
yöntemidir. Metot başlığı altında
detaylandırılacak olan bu yöntem görüntülerin anlamlı özetlerini çıkarmak için
gereklidir.
İkinci problem ise verilen görüntüde insan
figürünün bulunup bulunmadığının bilinmemesidir. Bu alt problemin çözümünde
insan olan ve insan olmayan görüntülerin sınıflandırılması gerekmektedir. Bu
işlem için özellik çıkarımı yöntemi ve derin öğrenme metotlarından biri olan
İkili Sınıflandırmadan faydalanılmıştır.
Üçüncü ve son problem ise insan figürlerinin
benzer olup olmadıklarının tespit edilmesidir. İki görüntüdeki insanların
benzer olup olmadıklarını tahmin edebilmek için görüntüler arasındaki farkın
niteliğine göre karar verilmesi gerekmektedir. Bu problemin çözümü için de
özellik çıkarımı yöntemini, fark fonksiyonunu ve karar mekanizmasını barındıran
Siamese Ağı kullanılmıştır. Tüm bu alt problemlerin çözümü ana problemin de
çözülmesini sağlayacaktır.
Proje sonunda tekrar tanıma için sistemin
yanıt süresinin iki saniyenin altında olması ve en iyi 4 tahminde başarısının
%90 olması beklenmekteydi. Sistemin iki saniyenin altında çalışması kriteri
sağlanmış olsa da başarım oranındaki beklenti sağlanamamıştır. İkili
sınıflandırma işlemi için MIT Pedestrian [1] ve INRIA GRAZ [2] data seti
kullanılmış ve yapılan testler sonucunda ortalama doğruluk %85 olarak alınmıştır.
Siamese ağı eğitiminde ise CUHK veri seti [3] kullanılmıştır. Bu model üzerinde
yapılan çeşitli testler sonucunda ortalama %60 doğruluk saptanmıştır.
Aslında
proje çevrimdışı ve çevrimiçi olmak üzere iki alt evreden oluşmaktadır. Bu
yazının konusu olan derin öğrenme metotları ile bir galeride bulunan insanların
yeniden tanınması işlemi projenin çevrimdışı kısmını kapsamaktadır. Bu nedenle
raporda projenin çevrimiçi bölümüyle alakalı teknik bilgiler verilmemiştir. Ancak
bir fikir oluşturması amacıyla tanımlamakta fayda görülmektedir. Çevrimiçi kısmı,
derin öğrenme ile gerçekleştirilmiş olan eğitimler kullanılarak istenilen
kişinin galeride değil entegre edilmiş kamera sisteminde aranması
sağlanacaktır. Bu sistemin en az dört kamera ile gerçekleştirilmesi
beklenmektedir.
Raporun içeriği hakkında kısaca bilgi
verilecek olursa, Önceki Çalışmalar başlığı altında tanımı yapılan ana problem
ve alt problemler ile ilgili daha önce yapılmış olan çalışmalara yer
verilmiştir. İkili Sınıflandırma ve
Siamese Ağı Metot başlığı altında detaylandırılmıştır. İki modelin birbirinden
ayrı değerlendirilebilmesi için alt başlıklar oluşturulmuştur. Veri Seti alt
başlığı eğitimde kullanılan veri setleri hakkında detaylı bilgiler
içermektedir. Kullanılan model mimarisi Model alt başlığı altında incelenirken
eğitimde kullanılan parametreler Eğitim başlığı altında yer almaktadır. Son alt
başlık olarak sistemlerin test verilerinin belirtildiği Test ve Sonuçları
bulunmaktadır. Ana başlıklardan birisi olan Tartışma ve Sonuçlar başlığı
altında genel değerlendirmelere ve gelecek planlarına yer verilmiştir.
[1] Center for Biological and Computational Learning at MIT and MIT, Pedestrian Data, http://cbcl.mit.edu/software-datasets/PedestrianData.html [Ziyaret Tarihi: 20 Aralık 2017]
[2] Dalal, Navneet, and Bill Triggs. "Histograms of oriented gradients for human detection." Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on. Vol. 1. IEEE, 2005.
[3]The Chinese University of Hong Kong, Person Re-Identification Datasets, http://www.ee.cuhk.edu.hk/~xgwang/CUHK_identification.html, [7], [Ziyaret Tarihi: 20 Aralık 2017]
[7] Li, Wei, et al. "Deepreid: Deep filter pairing neural network for person re-identification." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014.
[2] Dalal, Navneet, and Bill Triggs. "Histograms of oriented gradients for human detection." Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on. Vol. 1. IEEE, 2005.
[3]The Chinese University of Hong Kong, Person Re-Identification Datasets, http://www.ee.cuhk.edu.hk/~xgwang/CUHK_identification.html, [7], [Ziyaret Tarihi: 20 Aralık 2017]
[7] Li, Wei, et al. "Deepreid: Deep filter pairing neural network for person re-identification." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014.
Yorumlar
Yorum Gönder