해리슨 블로그

Busca Vetorial... Certamente o mais próximo está correto, mas...

  • Idioma de escrita: Coreana
  • País de referência: Todos os paísescountry-flag
  • TI

Criado: 2024-11-23

Criado: 2024-11-23 17:13

Busca Vetorial... Certamente o mais próximo está correto, mas...

Amostra de dispersão

A base da Busca Vetorial (doravante, busca) é encontrar itens próximos uns dos outros por meio de diversos métodos matemáticos.

No entanto, surgiu uma dúvida. Será que a busca pelo item mais próximo está correta, tanto na prática quanto matematicamente, mas será que isso significa que os artigos são realmente similares?

Na verdade, a busca usada no durumis busca os 6 artigos mais próximos de um artigo específico em um espaço de 768 dimensões.

Mas, comecei a questionar se os artigos similares são realmente similares. (Às vezes, artigos não similares aparecem...)

Então, qual é a razão?

Vamos usar como exemplo 10 pontos em um espaço bidimensional simplificado.

Para os pontos de 1 a 7, é claro que, se selecionarmos os 6 pontos mais próximos, os outros 6 serão os pontos mais próximos. (Isso é verdade também em termos de cálculo)

O problema são os pontos de 8 a 10... Por exemplo, se procurarmos os 6 pontos mais próximos do ponto 9, provavelmente serão 8, 10 e 3, 4, 7.

Mas aí está o problema: inversamente, o ponto 9 não está incluído entre os 6 pontos mais próximos do ponto 4. Então, eles são realmente artigos relacionados?

O exemplo acima é um caso bastante extremo. Se houver pontos suficientes para que não haja grandes espaços vazios, podemos considerá-los próximos o suficiente. (No entanto, considerando que temos 768 dimensões, é inevitável que existam espaços vazios entre os pontos. A menos que haja muitos artigos...)

Estou pensando nisso, mas a maneira mais confiável é que este problema será resolvido se houver artigos suficientes, certo?

Comentários0