向量搜尋…明明是最接近的，但…

撰写: 2024-11-23

撰写: 2024-11-23 17:13

分散的樣本

向量搜尋 (以下簡稱搜尋) 的基本原理是透過各種數學方法找出距離最近的項目。

但是，我突然產生了一個疑問。最近鄰搜尋雖然正確且符合數學原理，但它真的能找到相似的文章嗎？

實際上，杜魯米斯(durumis) 使用的搜尋方法是在 768 維空間中搜尋與目標文章最接近的 6 篇文章。

然而，我開始懷疑這些搜尋結果是否真的相似。（因為偶爾會出現不相似的文章……）

那麼，原因是什麼呢？

讓我們以簡化的二維空間中的 10 個點為例。

1 到 7 號點，如果選擇最近的 6 個點，其餘 6 個點肯定會是最接近的點。（實際計算結果也是如此）

問題在於 8 到 10 號點……例如，如果搜尋 9 號點最近的 6 個點，結果可能是 8、10、以及 3、4、7。

這樣就有問題了，反過來，在 4 號點中，最近的 6 個點不包含 9 號點，那麼它們真的是相關文章嗎？

上面的例子是一個相當極端的案例，如果存在足夠多的點，使得空隙不那麼大，那麼就可以將其視為足夠接近。（但是，考慮到 768 維空間，中間不可避免地會存在空隙。除非有非常大量的文章……）

我正在思考這個問題，最確定的方法是，如果文章數量足夠多，這個問題就能解決吧？

主题