Konu
- #En Yakın Arama
- #Benzerlik Arama
- #Yüksek Boyutlu Uzay
- #Vektör Arama
- #Veri Dağılımı
Oluşturulma: 2024-11-23
Oluşturulma: 2024-11-23 17:13
Dağılım Örneği
Vektör Arama (burada arama olarak anılacaktır)nın temeli, çeşitli matematiksel yöntemler kullanılarak yakın mesafedeki öğeleri bulmaktır.
Ancak, aklıma bir soru takıldı. En yakın komşu araması kesinlikle doğru ve matematiksel olarak ispatlanmış olsa da, bu gerçekten benzer yazı mı demektir?
Aslında, Durumis'te kullanılan arama, 768 boyutlu bir uzayda en yakın 6 yazıyı arayan bir yöntemdir.
Ancak, benzer yazılar gerçekten benzer mi sorusuna takıldım. (Bazen benzer olmayan yazılar da çıkıyor çünkü...)
Peki neden böyle oluyor?
Basitleştirilmiş 2 boyutlu bir uzayda 10 noktanın örneğini ele alalım.
1-7 numaralı noktalar için, en yakın 6 noktayı seçtiğimizde, kalan 6 noktanın en yakın nokta olarak gösterilmesi kesindir. (Gerçekten de hesaplama olarak da böyledir)
Sorun 8-10 numaralı noktalarda... Örneğin, 9 numaralı noktanın en yakın 6 noktasını arama yoluyla bulursak, 8, 10 ve 3, 4, 7 olacaktır.
Peki bu bir sorun teşkil eder; tersine, 4 numaralı noktanın en yakın 6 noktası arasında 9 numara bulunmazsa, bunlar gerçekten ilgili yazılar mıdır?
Yukarıdaki örnek oldukça uç bir durumdur; yeterince fazla nokta olup da böyle boş alanlar geniş değilse, yeterince yakın kabul edilebilir. (Ancak, 768 boyut olduğunu düşünürsek, aralarda boşluklar olması kaçınılmazdır. Gerçekten çok fazla yazı yoksa...)
Düşünüyorum ama en kesin yöntem, yeterince çok yazının eklenmesiyle bu sorunun çözüleceğidir?
Yorumlar0