해리슨 블로그

Векторный поиск... Ближайший, но не всегда похожий...

  • Язык написания: Корейский
  • Страна: Все страныcountry-flag
  • ИТ

Создано: 2024-11-23

Создано: 2024-11-23 17:13

Векторный поиск... Ближайший, но не всегда похожий...

Пример распределения

Основа векторного поиска (далее — поиск) заключается в поиске ближайших объектов с помощью различных математических методов.

Однако, меня вдруг посетил вопрос. Действительно ли поиск ближайших соседей, безусловно, верен и математически корректен, но является ли это поиском похожих записей?

В действительности, поиск, используемый в durumis (Дурумис), представляет собой поиск 6 ближайших записей в 768-мерном пространстве для одной записи.

Однако, у меня возникли сомнения относительно того, действительно ли похожие записи являются похожими. (Поскольку иногда встречаются не похожие записи...)

В чём же причина?

Возьмём в качестве примера 10 точек в упрощённом двумерном пространстве.

Для точек с 1 по 7, при выборе 6 ближайших точек, остальные 6 точек, безусловно, будут обозначены как ближайшие. (Это подтверждается расчётами.)

Проблема в точках с 8 по 10... Например, если найти 6 ближайших к точке 9 точек с помощью поиска, то это будут точки 8, 10, а также 3, 4, 7.

Но в этом-то и проблема, ведь в свою очередь, точка 9 не входит в 6 ближайших к точке 4, так являются ли они действительно связанными записями?

Приведённый выше пример является довольно крайним случаем, но если достаточно много точек, и нет таких больших пустых пространств, то их можно считать достаточно близкими. (Однако, учитывая 768-мерность, между точками неизбежно будут существовать пустые пространства. Если записей не так уж много...)

Я размышляю над этим, но самый надёжный способ — это заполнение достаточного количества записей, и тогда эта проблема решится?

Комментарии0

Методы исследования и анализа ключевых слов в SEO: эффективные инструменты и конкурентоспособная стратегияПредставляем эффективные методы исследования и анализа ключевых слов с использованием Google Keyword Planner, Ahrefs, SEMrush и других инструментов, а также конкурентоспособную стратегию ключевых слов с учетом таких факторов, как объем поиска, сложность и
꿈많은청년들
꿈많은청년들
꿈많은청년들
꿈많은청년들

June 18, 2024

Что такое маркировка данных? Типы, преимущества и недостаткиМаркировка данных — это процесс присвоения тегов данным, чтобы искусственный интеллект мог их понять. Он используется в различных областях, например, для различения собак и кошек, и помогает повысить производительность моделей.
세상 모든 정보
세상 모든 정보
세상 모든 정보
세상 모든 정보

March 29, 2024

Если публиковать один и тот же пост в блоге несколько раз, как это повлияет на поисковую выдачу Google?Публикация одного и того же поста в блоге в нескольких местах не оказывает негативного влияния на поисковую выдачу Google, но может привести к отображению только одной из копий поста.
durumis official blog
durumis official blog
durumis official blog
durumis official blog

March 13, 2024

Что такое канонический тег (canonical tag): важность для SEO и методы оптимизацииВ SEO канонический тег играет важную роль в решении проблемы дублированного контента и оптимизации для поисковых систем. Правильная настройка позволяет повысить позиции в поисковой выдаче и увеличить эффективность сканирования.
꿈많은청년들
꿈많은청년들
꿈많은청년들
꿈많은청년들

August 7, 2024