Boğaziçi Üniversitesi Bilgisayar Mühendisliği Bölümü öğretim üyesi Doç. Dr. Haluk Bingöl ve master öğrencisi Metin Döşlü’nün geliştirdikleri yazılım, arama motorlarının performansını yükselterek, Internet’te aranan konuyla ilgili doğru kaynakların yanı sıra, aynı konuyla ilişkili diğer kaynakları da eşzamanlı olarak kullanıcıya sunabiliyor.
Web sayfalarının daha verimli bulunmasını sağlayacak bir yöntem Boğaziçi Üniversitesi’nde geliştirildi. Bu yöntem birbirine referans veren belgeler arasındaki ilişkiyi kullanıyor. Birbirine bağlı belgeler arasında web sayfaları yanında hukuki belgeler, patentler de olduğu düşünülürse bu yöntemin önemli bir kullanım alanı olması bekleniyor.
Kısa bir süre önce, Boğaziçi Üniversitesi Teknoloji Transfer Ofisi’nin de desteğiyle Türkiye’de patent alan ‘’ATIF İÇERİĞİNİN ANALİZİ İLE İÇERİĞE DUYARLI DOKÜMAN SIRALAMA YÖNTEMİ” (*) Google ve Yandex gibi arama motorlarının mevcut performanslarının üzerinde yetkinliğiyle dikkat çekiyor. Çalışmanın ABD’den de patentlenmesi planlanıyor.
Doç. Dr. Haluk Bingöl, geliştirdikleri algoritmanın hali hazırda kullanılmakta olan arama motorlarının iyileştirilmesini amaçladığını belirterek konu hakkında şu bilgileri verdi:
‘’Arama motorlarının başarısı doğru dokümanları seçmek ve doğru şekilde sıralamaktır. Bir arama motoru size yüzlerce sayfa sonuç çıkarır ama kullanıcı hiçbir zaman onuncu sayfaya kadar gitmez. İyi bir arama motorunun en iyi cevapları ilk sayfada çıkarıyor olması ve tercihen de sizin aradığınız cevabı ilk iki-üç doküman içerisinde göstermesi gerekiyor. Internet’te arama yaparken aradığınız belgeyi birtakım kelimelerle tarif ediyorsunuz ve arama motoru sizin tarifinize göre uygun sonuçları buluyor. Arama motoru, bu dokümanı bulmakla kalmıyor, ilgi derecesine göre aramanızla ilgili diğer sonuçları da sıraya sokuyor. Yani sizin için hem bir seçim yapıyor hem de bu seçimi belli bir sıraya sokuyor. Bizim çalışmanız bu yönde bir katkı niteliğinde.’’
Haluk Bingöl, bu çalışmanın özellikle birbirine referans veren dokümanlarla ilgili kullanıcıya katkı sağladığını belirterek devam etti:
‘’Alışılmış arama motorları sayfaların içindeki kelimeleri kullanır. Sayfanın içinde geçmeyen bir kavram ile sayfayı ilişkilendirmez. Biz buna ek olarak belgeler arasındaki linkleri de kullandık. Bir web sayfası hazırladığınızı ve başka bir sayfaya link (referans) verdiğinizi düşünün. Referansı verdiğiniz yer civarında, referans verdiğiniz sayfaya neden referans verdiğiniz ile ilgili bilgiler yer alır. Biz bu bilgileri referans verilen sayfanın bulunmasında kullandık. Bu bize hâlihazırda kullanılan arama motorlarından daha iyi sonuçlar ele etmemizi sağladı. Bir sayfa düşünün. Buraya değişik kişilerin sayfalarından verilen linkler hep aynı kavramlar ile verildiyse siz bu sayfayı bu kavramlar ile ilişkilendirebilirsiniz. Bu kavramlar o sayfada geçmiyor olsa bile bunu yapabilirsiniz. Bir kavramın ilk defa çıktığında yaşanan problem bunun iyi bir örneğidir. Behçet hastalığını ele alalım. Bu hastalığı ilk tanımlayan makalede“Behçet Hastalığı” terimi geçmemesi beklenen bir şeydir. Ama bu makaleyi takip eden makaleler orijinal makaleye referans verirken Behçet hastalığı terimini kullanarak referans vereceklerdir. Bizim sistemimiz de orijinal makaleyi Behçet hastalığı ile ilişkilendirecektir.
Bu ilk bakışta görünenden çok daha etkili bir yöntemdir. Örneğin resim sanatı üzerine bir yazı yazdınız ve yazınızda “en güzel elma resimleri” diyerek ressamların resimlerine linkler verdiniz. Bu yöntem verilen linklerdeki resimleri elma ile ilişkilendirir. Dolayısıyla üzerinde hiç yazı olmayan resimler de aranabilir olur. Aynı şekilde müzik üzerine bir yazıdan müzik parçalarını arayabilir olabiliriz. “Mevsimleri en iyi anlatan” diye devam eden bir yazıda verilen link ile Vivaldi’nin Dört Mevsimler’inin bir mp3 dosyasını bulabiliriz hem de bu mp3 dosyasında hiç kelime geçmemesine rağmen’’.
Patent alan bu çalışmanın özellikle web sayfaları yanında bilimsel makaleler ve hukuk literatüründe kullanılabileceğini belirten Haluk Bingöl, ‘’ATIF İÇERİĞİNİN ANALİZİ İLE İÇERİĞE DUYARLI DOKÜMAN SIRALAMA YÖNTEMİ’’ sayesinde bir arama motorunun servislerini zenginleştirip kendisini daha rekabetçi bir noktaya taşıyabileceğini belirtti. Geliştirdikleri bu sistemin herhangi bir dilde de kullanılabileceğini ekleyen Bingöl sistemin çeşitli test aşamalarından başarıyla geçtiğini ifade etti:
‘’Ayrıca birbiriyle ilişkili kavramları göstermesi açısından da sistemimizi test ettik. Bir kavram düşünün; o kavramla çok yakın giden bir ikinci kavram daha var. O kavramın her geçtiği yerde öteki de beraber geçiyor. Bu iki kavram neredeyse her zaman beraber gidiyorlar. Ama ben kavramlardan sadece bir tanesini hatırlıyorum. Sistemin bana ‘’Sen bu kavramdan bahsediyorsun ama böyle de bir şey var’’ diye seçenek sunmasını istiyorum. Bizim sistemimiz bunu da yapıyor.
Sonuç olarak bu sistemde yapabildiğimiz iki şey var: İlki, içinde kelime geçmediği halde sonuca ulaşabiliyoruz, ikincisi ise kullanıcı yakın ve ilişkili kavramların birini girse de bizim sistemimiz ikinci kavramı önerebiliyor. Arama motorlarında kullanıcının en büyük sorunu doğru kelimelerle arayabilmek
Yöntemimiz web sayfaları gibi birbirine link veren belgeler üzerinde çalışıyor. Bunu sınırlayıcı olarak düşünmemek gerek. Kanunlar kanunlara, patentler patentlere referans veriyorlar. Hatta birbirine link veren belgeler gün geçtikçe daha da artıyor. Günümüzde yaratılan belgelerin neredeyse hepsi bir şeylere link veriyor. Belki de ileride başka bir yere link vermeyen belge kalmayacak. Yazdığınız yazıyı, facebook sayfanızı, gönderdiğiniz tweet’i, whatsapp mesajlarını düşünün.’’
(*) Doslu, M. and Bingol, H.O., 2016. Context sensitive article ranking with citation context analysis. Scientometrics, 108(2), pp.653-671.
Link: https://arxiv.org/abs/1511.04946
http://www.boun.edu.tr/ 21.07.2017