أنواع المقاييس
تُستخدم مقاييس التشابه لقياس أوجه التشابه بين المتجهات. يساعد اختيار مقياس المسافة المناسب في تحسين أداء التصنيف والتجميع بشكل كبير.
يدعم ميلفوس حاليًا هذه الأنواع من مقاييس التشابه: المسافة الإقليدية (L2
)، الضرب الداخلي (IP
)، تشابه جيب التمام (COSINE
)، JACCARD
و HAMMING
و BM25
(المصممة خصيصًا للبحث عن النص الكامل على المتجهات المتفرقة).
يلخص الجدول أدناه التعيين بين أنواع الحقول المختلفة وأنواع المقاييس المقابلة لها.
نوع الحقل | نطاق البعد | أنواع المقاييس المدعومة | نوع القياس الافتراضي |
---|---|---|---|
| 2-32,768 |
|
|
| 2-32,768 |
|
|
| 2-32,768 |
|
|
| لا حاجة لتحديد البُعد |
|
|
| 8-32,768*8 |
|
|
بالنسبة للحقول المتجهة من النوع
SPARSE_FLOAT_VECTOR
، استخدم النوع المتريBM25
فقط عند إجراء بحث بالنص الكامل. لمزيد من المعلومات، راجع البحث عن النص الكامل.بالنسبة للحقول المتجهة من النوع
BINARY_VECTOR
، يجب أن تكون قيمة البُعد (dim
) من مضاعفات العدد 8.
يلخص الجدول أدناه خصائص قيم مسافة التشابه لجميع أنواع المقاييس المدعومة ونطاق قيمها.
نوع المقياس | خصائص قيم مسافات التشابه في المسافة | نطاق قيمة مسافة التشابه |
---|---|---|
| تشير القيمة الأصغر إلى تشابه أكبر. | [0, ∞) |
| تشير القيمة الأكبر إلى تشابه أكبر. | [-1, 1] |
| تشير القيمة الأكبر إلى تشابه أكبر. | [-1, 1] |
| تشير القيمة الأصغر إلى تشابه أكبر. | [0, 1] |
| تشير القيمة الأصغر إلى تشابه أكبر. | [0، خافت (متجه)] |
| تسجيل درجة الصلة استنادًا إلى تكرار المصطلح وتكرار المستند المقلوب وتطبيع المستند. | [0, ∞) |
المسافة الإقليدية (L2)
بشكل أساسي، تقيس المسافة الإقليدية طول القطعة التي تربط بين نقطتين.
فيما يلي صيغة المسافة الإقليدية.
صيغة المسافة الإقليدية
حيث a = (a0،a1،...،...،an-1) و b = (b0،b1،...،...، bn-1) نقطتان في الفضاء الإقليدي ن في الفضاء الإقليدي.
إنه مقياس المسافة الأكثر استخدامًا وهو مفيد جدًا عندما تكون البيانات متصلة.
يحسب ميلفوس القيمة فقط قبل تطبيق الجذر التربيعي عند اختيار المسافة الإقليدية كمقياس للمسافة.
الضرب الداخلي (IP)
يتم تعريف المسافة IP بين تضمينينين على النحو التالي.
صيغة الضرب الداخلي
يكون IP أكثر فائدة إذا كنت بحاجة إلى مقارنة بيانات غير طبيعية أو عندما تهتم بالمقدار والزاوية.
إذا كنت تستخدم IP لحساب أوجه التشابه بين التضمينات، فيجب عليك تطبيع التضمينات. بعد التطبيع، يساوي حاصل الضرب الداخلي تشابه جيب التمام.
لنفترض أن X' تم تطبيعه من تضمين X.
صيغة الضرب الداخلي الطبيعي
يكون الارتباط بين التضمينين على النحو التالي.
الارتباط بين التضمينين
تشابه جيب التمام
يستخدم تشابه جيب التمام جيب تمام الزاوية بين مجموعتين من المتجهات لقياس مدى تشابههما. يمكنك التفكير في مجموعتي المتجهات على أنهما قطعتان مستقيمتان تبدآن من نفس النقطة، مثل [0،0،...]، لكنهما تشيران في اتجاهين مختلفين.
لحساب التشابه في جيب التمام بين مجموعتين من المتجهات A = (a0،a1،...،an-1) وB = (b0،b1،...، bn-1)، استخدم الصيغة التالية.
صيغة تشابه جيب التمام
يكون تشابه جيب التمام دائمًا في الفترة [-1، 1]. على سبيل المثال، متجهان متناسبان يكون تشابه جيب التمام بينهما يساوي 1، ومتجهان متعامدان يكون التشابه بينهما يساوي 0، ومتجهان متعاكسان يكون التشابه بينهما يساوي -1. كلما كان جيب التمام أكبر، كانت الزاوية بين المتجهين أصغر، ما يشير إلى أن هذين المتجهين متشابهان أكثر تشابهًا مع بعضهما البعض.
بطرح التشابه في جيب التمام من 1، يمكنك الحصول على مسافة جيب التمام بين المتجهين.
مسافة JACCARD
يقيس معامل التشابه JACCARD التشابه بين مجموعتين من العينات، ويُعرَّف بأنه مقدار التشابه بين مجموعتين محددتين مقسومًا على مقدار التشابه بين مجموعتين محددتين. لا يمكن تطبيقه إلا على مجموعات العينات المحدودة.
صيغة معامل التشابه JACCARD
تقيس المسافة JACCARD التباين بين مجموعات البيانات، ويتم الحصول عليها بطرح معامل تشابه JACCARD من 1. بالنسبة للمتغيرات الثنائية، تعادل المسافة JACCARD معامل تانيموتو.
صيغة مسافة JACCARD
مسافة هامينج
تقيس مسافة HAMMING سلاسل البيانات الثنائية. المسافة بين سلسلتين متساويتين في الطول هي عدد مواضع البتات التي تختلف عندها البتات.
على سبيل المثال، لنفترض أن هناك سلسلتين، 1101 1001 و1001 1101.
11011001 ⊕ 10011101 = 01000100. وبما أن هذا يحتوي على اثنين من 1، فإن المسافة بين السلسلتين هي د (11011001، 10011101) = 2.
تشابه BM25
BM25 هي طريقة قياس صلة النص المستخدمة على نطاق واسع، وهي مصممة خصيصًا للبحث في النص الكامل. وهي تجمع بين العوامل الرئيسية الثلاثة التالية.
تردد المصطلح (TF): يقيس مدى تكرار ظهور المصطلح في المستند. في حين أن الترددات الأعلى غالبًا ما تشير إلى أهمية أكبر، يستخدم BM25 معامل التشبع k1 لمنع المصطلحات المتكررة بشكل مفرط من الهيمنة على درجة الصلة.
تردد المستند العكسي (IDF): يعكس أهمية المصطلح عبر المجموعة بأكملها. وتحصل المصطلحات التي تظهر في عدد أقل من المستندات على قيمة أعلى لتكرار المستند (IDF)، مما يشير إلى مساهمة أكبر في الأهمية.
تطبيع طول المستند: تميل المستندات الأطول إلى الحصول على درجات أعلى بسبب احتوائها على مصطلحات أكثر. يخفف BM25 من هذا التحيز من خلال تطبيع أطوال المستندات، حيث يتحكم المعامل b في قوة هذا التطبيع.
يتم حساب درجة BM25 على النحو التالي.
معادلة تشابه BM25
وصف المعلمة.
Q
: نص الاستعلام المقدم من المستخدم.D
: المستند الذي يتم تقييمه.TF(qi,D)
: تكرار المصطلح الذي يمثل عدد مرات ظهور المصطلحqi
في المستندD
.IDF(qi)
: : تردد المستند العكسي، محسوبًا على النحو التالي.صيغة IDF
حيث
N
هو العدد الإجمالي للمستندات في مجموعة المستندات، وn(qi)
هو عدد المستندات التي تحتوي على المصطلح qi.∣D∣
: طول المستندD
(إجمالي عدد المصطلحات).avgdl
: متوسط طول جميع المستندات في المجموعة.k1
: يتحكم في تأثير تكرار المصطلح على النتيجة. تزيد القيم الأعلى من أهمية تكرار المصطلح. النطاق النموذجي هو [1.2، 2.0]، بينما يسمح ميلفوس بنطاق [0، 3].b
: يتحكم في درجة تطبيع الطول، وتتراوح من 0 إلى 1. عندما تكون القيمة 0، لا يتم تطبيق أي تطبيع؛ وعندما تكون القيمة 1، يتم تطبيق التطبيع الكامل.