Makina öğrenmesi: makineler ne görür, ne anlamdırır?

Renkli görüntü oluşturan sensörler ve bu sensörlerin oluşturduğu görüntüler hayatımızın birçok alanında yer almaktadır. HD görüntü, yüksek çözünürlük gibi kavramları artık gündelik hayatımızda çok sık kullanmaya başladık. Peki, gerçekten nedir bu çözünürlük? Bir görüntüleme sistemi için çözünürlüğü çok fazla teknik detaya girmeden görünür veya kızıl ötesi frekans bandında herhangi bir objenin oluşturduğu izin ne kadar sık örneklendiği olarak düşünebiliriz.

Dijital bir görüntüleme sisteminin oluşturacağı görüntünün çözünürlüğü ve oluşturulan görüntünün netliğini belirleyen birçok faktör olmasına rağmen bunlardan en önemlisinin sahneyi örnekleyen ve dijital hale getiren görüntüleme sensörü olduğunu söylemek yanlış olmaz. Bu durumda aslında bir görüntüleme sisteminin çözünürlüğü ve oluşturulan görüntünün netliğini artırmanın en doğal ve ilk akla gelen yöntemlerinden birisi, sistemin içerdiği görüntüleme sensörünü daha sık örnekleme yapabilecek bir başkasıyla değiştirmektir.
Nitekim son 10 yılda piyasaya sürülen birçok akıllı telefonun jenerasyonları arasında kamera teknolojisinde yapılan en önemli değişiklik, kamera sensörünü daha yüksek çözünürlüklü olanla değiştirmektir. Ancak kamera sensörünün değiştirilmesi her zaman;
• Maliyet etkin
• Uygulanabilir
• Teknik olarak mümkün
olmayabilir. Bu durumda, çözünürlüğü artırmak için donanımsal bir sensör değişikliğinden ziyade yazılımsal bir çözüm bulunması gerekmektedir. Son yıllarda bilgisayar işlem hızlarının ve kapasitelerinin de hızlı bir şekilde artmasına paralel olarak gelişen makine öğrenmesi ve yapay zekâ teknikleri bu yazılımsal çözüme olanak sağlamaktadır. Bu çözümler literatürde genel olarak süper çözünürlük (super resolution) yöntemleri olarak anılmaktadır.

ASELSAN Araştırma Merkezinde özellikle termal kameralar için artan maliyetler ve dışa bağımlılık engellerinin aşılması adına gerçek zamanlı süper çözünürlük yöntemleri araştırma geliştirme faaliyetleri sürdürülmektedir. Çalışmanın ilk motivasyonu termal kameralar olmasına rağmen geliştirilen yöntemler renkli görüntülerinde çözünürlüğünün artırılması için de kullanılabilecektir.

Süper çözünürlük problemi temel olarak iki alt problemde incelenebilir. Birincisi (ve aslında ilk çalışılan problem) çoklu görüntü süper çözünürlük (multi image super resolution - MISR) problemiyken ilerleyen yıllarda tekil görüntü süper çözünürlük (single image super resolution - SISR) problemi üzerine de çalışmalar yürütülmeye başlamıştır.
Bu iki problem arasındaki temel fark, çözünürlüğü artırılmak istenen aynı görüntünün piksel altı seviyede farklılık bulunan birden fazla görüntüsünün olup olmadığıdır. İki problem de doğası gereği bozuk koşullu (ill-conditioned) problemlerdir. Bunun sebebi verilen herhangi bir düşük çözünürlükteki görüntü, birden fazla yüksek çözünürlüklü görüntü tarafından üretilebilir, yani herhangi bir koşul (regularizer) olmadığı durumda problemin sonsuz sayıda çözümü bulunmaktadır. Bu yüzden süper çözünürlük probleminin çözümünde bir koşul mekanizmasının kullanılması zorunludur. 2000’li yıllarda geliştirilen yöntemlerde problem bir optimizasyon problemi olarak ele alınmış ve problemin tek çözümü olması için L2-Norm ve L1-Norm gibi koşul mekanizmaları kullanılmıştır. Makine öğrenmesi ve derin öğrenme (deep learning) metotlarının yaygınlaşması süper çözünürlük problemine olan yaklaşımları da etkilemiş, 2014 yılında SISR problemi için derin öğrenme tabanlı ilk yöntem ortaya atılmıştır. Bu yöntem ile optimizasyon tabanlı yöntemlerin elde ettiği sonuçların oldukça ilerisinde bir performans göstermiştir.

Makine öğrenme tabanlı metotların başarısı sebebiyle SISR problemi için günümüz literatüründe çoğunlukla bu metodoloji kullanılmaktadır. MISR problemi günümüzde genellikle hem uygulanabilirlik hem de veri eksikliği sebebiyle daha az çalışılır hale gelmiştir. Kullanılan yöntemlerin bazıları gerçek zamanlı uygulamalar için uygunken bazıları teorik çalışmalardan öteye geçememektedir.

Makine öğrenmesi tabanlı süper çözünürlük yöntemlerinin geliştirilmesinin en önemli unsurlardan birisi veridir. Doğası gereği genel olarak makine öğrenmesi tabanlı yöntemler çok fazla veriye ihtiyaç duymaktadır. Geliştirilen bir yapay sinir ağının eğitiminde milyonlarca veri kullanılabilmektedir. Süper çözünürlük modelinin eğitiminde iki tür veri kullanılır. Bunlar modele girdi olarak verilen düşük çözünürlüklü görüntü (LR) ve model çıktısı olarak istenen yüksek çözünürlüklü görüntülerdir (HR). Bu LR-HR çiftleri, problem için kullanılacak eğitim setini oluşturur (training set). Eğitimin başında model, kendisine girdi olarak verilen LR görüntüsünü, henüz parametreleri süper çözünürlük problemini çözmeye uygun olmadığı için bir bozuk bir görüntüye dönüştürür (SR). Bu görüntü ile LR-HR çiftinin HR görüntüsü arasındaki fark görüntüsü modelin o an ki kayıp miktarını verir. Modelin parametreleri bu kayıp miktarıyla orantılı olarak kayıp miktarını azaltacak yönde sonuç vermesi için bir optimizasyon algoritması vasıtasıyla adım adım değiştirilir. Model eğitimi sırasında kendisine verilen milyonlarca farklı LR-HR çiftleri hangi LR görüntüsü verildiğinde HR’a yakın nasıl bir SR görüntüsü üretmesi gerektiğini öğrenir. Model girişine uygulanan LR görüntüsü eğitim sırasında görülmemiş bir veri olsa dahi eğitilen parametreleri ve kullanılan mimari sayesinde yüksek çözünürlüklü HR görüntüsüne oldukça yakın SR görüntü üretebilmektedir.

Geliştirilen modellerin yüksek başarımının yanında gerçek zamanlı uygulanabilir olması da oldukça önemlidir. Zira genel olarak makine öğrenmesi yöntemlerinde kullanılan model ve parametre sayısı arttıkça model başarımı artabilmektedir. Burada bir yöntemin pratikte kullanılabilmesini belirleyen husus doğru model mimarisinin seçilerek az sayıda parametre ile yüksek performans elde edebilmektir.

Kaynak: ASELSAN

Yorum yapın