أنواع المقاييس
تُستخدم مقاييس التشابه لقياس أوجه التشابه بين المتجهات. يساعد اختيار مقياس المسافة المناسب في تحسين أداء التصنيف والتجميع بشكل كبير.
يدعم ميلفوس حاليًا هذه الأنواع من مقاييس التشابه: المسافة الإقليدية (L2)، الضرب الداخلي (IP)، تشابه جيب التمام (COSINE)، JACCARD و HAMMING و BM25 (المصممة خصيصًا للبحث عن النص الكامل على المتجهات المتفرقة).
يلخص الجدول أدناه التعيين بين أنواع الحقول المختلفة وأنواع المقاييس المقابلة لها.
نوع الحقل |
نطاق البعد |
أنواع المقاييس المدعومة |
نوع القياس الافتراضي |
|---|---|---|---|
|
2-32,768 |
|
|
|
2-32,768 |
|
|
|
2-32,768 |
|
|
|
2-32,768 |
|
|
|
لا حاجة لتحديد البُعد |
|
|
|
8-32,768*8 |
|
|
بالنسبة للحقول المتجهة من النوع
SPARSE\_FLOAT\_VECTOR، استخدم النوع المتريBM25فقط عند إجراء بحث بالنص الكامل. لمزيد من المعلومات، راجع البحث عن النص الكامل.بالنسبة للحقول المتجهة من النوع
BINARY_VECTOR، يجب أن تكون قيمة البعد (dim) من مضاعفات العدد 8.
يلخص الجدول أدناه خصائص قيم مسافة التشابه لجميع أنواع المقاييس المدعومة ونطاق قيمها.
نوع المقياس |
خصائص قيم مسافات التشابه في المسافة |
نطاق قيمة مسافة التشابه |
|---|---|---|
|
تشير القيمة الأصغر إلى تشابه أكبر. |
[0, ∞) |
|
تشير القيمة الأكبر إلى تشابه أكبر. |
[-1, 1] |
|
تشير القيمة الأكبر إلى تشابه أكبر. |
[-1, 1] |
|
تشير القيمة الأصغر إلى تشابه أكبر. |
[0, 1] |
|
تقديرات تشابه جاكارد من بتات توقيع MinHash؛ مسافة أصغر = تشابه أكبر |
[0, 1] |
|
تشير القيمة الأصغر إلى تشابه أكبر. |
[0، خافت (متجه)] |
|
تقدير الصلة استنادًا إلى تكرار المصطلح وتكرار المستند المقلوب وتطبيع المستند. |
[0, ∞) |
لفهرسة حقول المتجهات في حقل Array of Structs، يجب عليك وضع بادئة MAX_SIM لمجموعة أنواع المقاييس المذكورة أعلاه، استنادًا إلى تضمينات المتجهات المخزنة في تلك الحقول. على سبيل المثال
بالنسبة لحقل متجه يخزن التضمينات المتجهة من النوع
FLOAT_VECTORأوFLOAT16_VECTORأوBFLOAT16_VECTORأوINT8_VECTOR، يمكنك استخدامMAX_SIM_COSINEأوMAX_SIM_IPأوMAX_SIM_L2كنوع متري.بالنسبة إلى الحقل الاتجاهي الذي يخزن تضمينات متجهة من النوع
BINARY_VECTOR، يمكنك استخدامMAX_SIM_JACCADRأوMAX_SIM_HAMMINGكنوع متري.
المسافة الإقليدية (L2)
بشكل أساسي، تقيس المسافة الإقليدية طول القطعة التي تربط بين نقطتين.
فيما يلي صيغة المسافة الإقليدية:
المسافة الإقليدية الإقليدية
حيث a = (a0،a1،...،...،an-1) و b = (b0،b1،...،...، bn-1) نقطتان في الفضاء الإقليدي الإقليدي ن.
إنه مقياس المسافة الأكثر استخدامًا وهو مفيد جدًا عندما تكون البيانات متصلة.
يحسب ميلفوس القيمة فقط قبل تطبيق الجذر التربيعي عند اختيار المسافة الإقليدية كمقياس للمسافة.
الضرب الداخلي (IP)
يتم تعريف المسافة IP بين تضمينينين على النحو التالي:
صيغة IP
يكون IP أكثر فائدة إذا كنت بحاجة إلى مقارنة بيانات غير طبيعية أو عندما تهتم بالمقدار والزاوية.
إذا كنت تستخدم IP لحساب أوجه التشابه بين التضمينات، فيجب عليك تطبيع التضمينات. بعد التطبيع، يساوي حاصل الضرب الداخلي تشابه جيب التمام.
لنفترض أن X' تم تطبيعه من تضمين X:
صيغة التطبيع
يكون الارتباط بين التضمينين على النحو التالي:
الارتباط بين التضمينين
تشابه جيب التمام
يستخدم تشابه جيب التمام جيب تمام الزاوية بين مجموعتين من المتجهات لقياس مدى تشابههما. يمكنك التفكير في مجموعتي المتجهات على أنهما قطعتان مستقيمتان تبدآن من نفس النقطة، مثل [0،0،...]، لكنهما تشيران في اتجاهين مختلفين.
لحساب تشابه جيب التمام بين مجموعتين من المتجهين A = (a0،a1،...،an-1) وB = (b0،b1،...، bn-1)، استخدم الصيغة التالية:
تشابه جيب التمام
يكون تشابه جيب التمام دائمًا في الفترة [-1، 1]. على سبيل المثال، متجهان متناسبان يكون تشابه جيب التمام بينهما 1، ومتجهان متعامدان يكون التشابه بينهما 0، ومتجهان متعاكسان يكون التشابه بينهما -1. كلما كان جيب التمام أكبر، كانت الزاوية بين المتجهين أصغر، ما يشير إلى أن هذين المتجهين أكثر تشابهًا مع بعضهما البعض.
بطرح التشابه في جيب التمام من 1، يمكنك الحصول على مسافة جيب التمام بين المتجهين.
مسافة JACCARD
يقيس معامل المسافة JACCARD التشابه بين مجموعتين من العينات، ويُعرَّف بأنه مقدار التشابه بين مجموعتين محددتين مقسومًا على مقدار التشابه بين مجموعتين محددتين. يمكن تطبيقه فقط على مجموعات العينات المحدودة.
صيغة معامل التشابه JACCARD
تقيس المسافة JACCARD التباين بين مجموعات البيانات ويتم الحصول عليها بطرح معامل التشابه JACCARD من 1. بالنسبة للمتغيرات الثنائية، تعادل المسافة JACCARD معامل تانيموتو.
صيغة المسافة JACCARD
MHJACCARD
MinHash Jaccard (MHJACCARD) هو نوع متري يستخدم للبحث الفعال والتقريبي عن التشابه على مجموعات كبيرة - مثل مجموعات كلمات المستندات، أو مجموعات علامات المستخدم، أو مجموعات k-مير الجينومية. وبدلاً من مقارنة المجموعات الخام مباشرة، يقارن MHJACCARD تواقيع MinHash، وهي عبارة عن تمثيلات مضغوطة مصممة لتقدير تشابه جاكارد بكفاءة.
هذا النهج أسرع بكثير من حساب تشابه جاكارد الدقيق وهو مفيد بشكل خاص في السيناريوهات واسعة النطاق أو عالية الأبعاد.
نوع المتجه القابل للتطبيق
BINARY_VECTORحيث يخزن كل متجه توقيع MinHash. يتوافق كل عنصر مع الحد الأدنى لقيمة التجزئة تحت إحدى دوال التجزئة المستقلة المطبقة على المجموعة الأصلية.
تعريف المسافة
يقيس MHJACCARD عدد المواضع في توقيعين من MinHash متطابقين. كلما كانت نسبة التطابق أعلى، كلما كانت المجموعتان الأساسيتان متشابهتان.
تقارير ميلفوس
- المسافة = 1 - التشابه المقدر (نسبة التطابق)
تتراوح قيمة المسافة من 0 إلى 1:
0 تعني0 أن توقيعات MinHash متطابقة (تشابه جاكارد المقدر = 1)
1 يعني عدم وجود تطابق في أي موضع (تشابه جاكارد المقدر = 0)
للحصول على معلومات حول التفاصيل الفنية، راجع MINHASH_LSH.
مسافة HAMMING
تقيس مسافة HAMMING سلاسل البيانات الثنائية. المسافة بين سلسلتين متساويتين في الطول هي عدد مواضع البتات التي تختلف فيها البتات.
على سبيل المثال، لنفترض أن هناك سلسلتين، 1101 1001 و1001 1101.
11011001 ⊕ 10011101 = 01000100. وبما أن هذا يحتوي على اثنين من 1، فإن المسافة بين السلسلتين هي د (11011001، 10011101) = 2.
تشابه BM25
BM25 هي طريقة قياس صلة النص المستخدمة على نطاق واسع، وهي مصممة خصيصًا للبحث في النص الكامل. وهي تجمع بين العوامل الرئيسية الثلاثة التالية:
تردد المصطلح (TF): يقيس مدى تكرار ظهور المصطلح في المستند. في حين أن الترددات الأعلى غالبًا ما تشير إلى أهمية أكبر، تستخدم BM25 معلمة التشبع k لمنع المصطلحات المتكررة بشكل مفرط من الهيمنة على درجة الصلة.
تردد المستند العكسي (IDF): يعكس أهمية المصطلح عبر المجموعة بأكملها. وتحصل المصطلحات التي تظهر في عدد أقل من المستندات على قيمة أعلى لتكرار المستند (IDF)، مما يشير إلى مساهمة أكبر في الأهمية.
تطبيع طول المستند: تميل المستندات الأطول إلى الحصول على درجات أعلى بسبب احتوائها على مصطلحات أكثر. يخفف BM25 من هذا التحيز من خلال تطبيع أطوال المستندات، حيث يتحكم المعامل b في قوة هذا التطبيع.
يتم حساب نقاط BM25 على النحو التالي:
وصف المعلمة:
Q: نص الاستعلام المقدم من المستخدم.
D: المستند الذي يتم تقييمه.
TF,: تكرار المصطلح الذي يمثل عدد مرات ظهور المصطلح q في المستند D.
): تردد المستند العكسي، محسوبًا على النحو التالي:
حيث N هو العدد الإجمالي للمستندات في مجموعة المستندات، n ) هو عدد المستندات التي تحتوي على المصطلح q .
: طول المستند D (إجمالي عدد المصطلحات).
: متوسط طول جميع المستندات في مجموعة المستندات.
k: يتحكم في تأثير تكرار المصطلح على النتيجة. تزيد القيم الأعلى من أهمية تكرار المصطلح. النطاق النموذجي هو [1.2، 2.0]، بينما يسمح ميلفوس بنطاق [0، 3].
b: تتحكم في درجة تطبيع الطول، وتتراوح من 0 إلى 1. عندما تكون القيمة 0، لا يتم تطبيق أي تطبيع؛ وعندما تكون القيمة 1، يتم تطبيق التطبيع الكامل.