विषय
- #उच्च आयामी स्थान (고차원 공간)
- #वेक्टर सर्च (Vector Search)
- #निकटतम खोज (최근접 검색)
- #समानता खोज (유사도 검색)
- #डेटा वितरण (데이터 분포)
रचना: 2024-11-23
रचना: 2024-11-23 17:13
वितरण का नमूना (분산의 샘플)
वेक्टर सर्च (खोज) का मूल सिद्धांत विभिन्न गणितीय विधियों के माध्यम से निकटतम दूरी पर स्थित वस्तुओं को खोजना है।
लेकिन, अचानक एक सवाल उठा। क्या निकटतम खोज निश्चित रूप से सही है और गणितीय रूप से सही है, लेकिन क्या यह समान लेख है?
वास्तव में, दुरुमिस द्वारा उपयोग की जाने वाली खोज एक लेख को 768-आयामी स्थान में निकटतम 6 लेखों को खोजने की विधि है।
लेकिन, मुझे इस बात पर संदेह होने लगा कि क्या समान लेख वास्तव में समान हैं। (कभी-कभी असंबंधित लेख भी दिखाई देते हैं।)
तो इसका कारण क्या है?
आइए ऊपर दिए गए सरलीकृत 2-आयामी स्थान के 10 बिंदुओं के उदाहरण पर विचार करें।
1 से 7 तक के बिंदुओं के लिए, यदि हम निकटतम 6 बिंदुओं का चयन करते हैं, तो शेष 6 बिंदु निश्चित रूप से निकटतम बिंदु होंगे। (वास्तव में, गणना के अनुसार भी ऐसा ही है।)
समस्या 8 से 10 के साथ है। उदाहरण के लिए, यदि हम खोज के माध्यम से बिंदु 9 के निकटतम 6 बिंदुओं को ढूंढते हैं, तो वे 8, 10 और 3, 4, 7 होंगे।
लेकिन यही समस्या है। इसके विपरीत, बिंदु 4 में निकटतम 6 बिंदुओं में बिंदु 9 शामिल नहीं है, तो क्या वे संबंधित लेख हैं?
ऊपर दिया गया उदाहरण एक बहुत ही चरम मामला है। यदि पर्याप्त बिंदु हैं ताकि इतना खाली स्थान न हो, तो इसे काफी करीब माना जा सकता है। (हालांकि, 768 आयामों को ध्यान में रखते हुए, बीच-बीच में खाली स्थान होना ही होगा। जब तक बहुत सारे लेख न हों।)
मैं इस पर विचार कर रहा हूँ, लेकिन सबसे निश्चित तरीका यह है कि यदि पर्याप्त लेख हैं, तो यह समस्या हल हो जाएगी।
टिप्पणियाँ0