해리슨 블로그

Vector Search.. 분명 최근접이 맞긴 맞는데..

  • 작성 언어: 한국어
  • 기준국가: 모든 국가country-flag
  • IT

작성: 2024-11-23

작성: 2024-11-23 17:13

Vector Search.. 분명 최근접이 맞긴 맞는데..

분산의 샘플

Vector Search (이하 검색) 의 기본은 가까운 거리에 있는것들을 다양한 수학적 방법을 통해 찾는것이다.

그런데, 문득 의문이 들었다. 과연 최근접 검색은 분명 맞고 수학적으로 맞는데, 이게 유사글이 맞을까?

실제로 두루미스에서 사용하는 검색은 하나의 글을 768차원의 공간에서 가장 가까운 6개의 글을 검색하는 방식이다.

그런데, 유사글이 과연 유사글인가에 대해 의문을 품게 되었다. ( 간혹 비슷하지 않은 글도 나오니까.. )

그럼 이유가 뭘까?

위의 단순화된 2차원 공간의 10개의 점을 예시로 들어보자.

1~7번의 점들은 분명 최근접 6개의 점을 선택하면 나머지 6개가 가장 가까운 점으로 표시되는건 확실하다. ( 실제로 계산상으로도 그렇다 )

문제는 8~10 인데.. 예를들어 9번의 가장 가까운점 6개를 검색을 통해 찾아 보면 8,10 그리고 3,4,7 이 될듯 하다.

그렇다면 이게 문제인데, 반대로 4번에서는 가장 가까운점 6개에 9번이 포함이 안되는데, 서로 연관글이 맞을까?

위의 예시는 상당히 극단적인 케이스인데, 만약에 충분히 많은 점들이 있어서 저렇게 빈 공간이 넓지 않다면, 충분히 근처라고 간주가 가능할꺼 같다. ( 다만, 768 차원이라는 것을 생각하면 생각보다 중간 중간 빈공간이 존재할 수밖에 없다. 정말로 많은 글이 있는게 아니라면.. )

고민은 하고 있는데, 가장 확실한 방법은 충분히 많은 글이 채워지면 이 문제가 해결되겠지?

댓글0