🚀 جرب Zilliz Cloud، الـ Milvus المدارة بالكامل، مجاناً — تجربة أداء أسرع بـ 10 أضعاف! جرب الآن>>

milvus-logo
LFAI
الصفحة الرئيسية
  • المفاهيم
  • Home
  • Docs
  • المفاهيم

  • الأنواع المترية

أنواع المقاييس

تُستخدم مقاييس التشابه لقياس أوجه التشابه بين المتجهات. يساعد اختيار مقياس المسافة المناسب في تحسين أداء التصنيف والتجميع بشكل كبير.

يدعم ميلفوس حاليًا هذه الأنواع من مقاييس التشابه: المسافة الإقليدية (L2)، الضرب الداخلي (IP)، تشابه جيب التمام (COSINEJACCARD و HAMMING و BM25 (المصممة خصيصًا للبحث عن النص الكامل على المتجهات المتفرقة).

يلخص الجدول أدناه التعيين بين أنواع الحقول المختلفة وأنواع المقاييس المقابلة لها.

نوع الحقل

نطاق البعد

أنواع المقاييس المدعومة

نوع القياس الافتراضي

FLOAT_VECTOR

2-32,768

COSINE، L2 ، IP

COSINE

FLOAT16_VECTOR

2-32,768

COSINE, L2, IP

COSINE

BFLOAT16_VECTOR

2-32,768

COSINE L2, IP

COSINE

SPARSE_FLOAT_VECTOR

لا حاجة لتحديد البُعد

IP، BM25 (يستخدم فقط للبحث في النص الكامل)

IP

BINARY_VECTOR

8-32,768*8

HAMMING JACCARD

HAMMING

  • بالنسبة للحقول المتجهة من النوع SPARSE_FLOAT_VECTOR ، استخدم النوع المتري BM25 فقط عند إجراء بحث بالنص الكامل. لمزيد من المعلومات، راجع البحث عن النص الكامل.

  • بالنسبة للحقول المتجهة من النوع BINARY_VECTOR ، يجب أن تكون قيمة البُعد (dim) من مضاعفات العدد 8.

يلخص الجدول أدناه خصائص قيم مسافة التشابه لجميع أنواع المقاييس المدعومة ونطاق قيمها.

نوع المقياس

خصائص قيم مسافات التشابه في المسافة

نطاق قيمة مسافة التشابه

L2

تشير القيمة الأصغر إلى تشابه أكبر.

[0, ∞)

IP

تشير القيمة الأكبر إلى تشابه أكبر.

[-1, 1]

COSINE

تشير القيمة الأكبر إلى تشابه أكبر.

[-1, 1]

JACCARD

تشير القيمة الأصغر إلى تشابه أكبر.

[0, 1]

HAMMING

تشير القيمة الأصغر إلى تشابه أكبر.

[0، خافت (متجه)]

BM25

تسجيل درجة الصلة استنادًا إلى تكرار المصطلح وتكرار المستند المقلوب وتطبيع المستند.

[0, ∞)

المسافة الإقليدية (L2)

بشكل أساسي، تقيس المسافة الإقليدية طول القطعة التي تربط بين نقطتين.

فيما يلي صيغة المسافة الإقليدية.

Euclidean distance formula صيغة المسافة الإقليدية

حيث a = (a0،a1،...،...،an-1) و b = (b0،b1،...،...، bn-1) نقطتان في الفضاء الإقليدي ن في الفضاء الإقليدي.

إنه مقياس المسافة الأكثر استخدامًا وهو مفيد جدًا عندما تكون البيانات متصلة.

يحسب ميلفوس القيمة فقط قبل تطبيق الجذر التربيعي عند اختيار المسافة الإقليدية كمقياس للمسافة.

الضرب الداخلي (IP)

يتم تعريف المسافة IP بين تضمينينين على النحو التالي.

Inner product formula صيغة الضرب الداخلي

يكون IP أكثر فائدة إذا كنت بحاجة إلى مقارنة بيانات غير طبيعية أو عندما تهتم بالمقدار والزاوية.

إذا كنت تستخدم IP لحساب أوجه التشابه بين التضمينات، فيجب عليك تطبيع التضمينات. بعد التطبيع، يساوي حاصل الضرب الداخلي تشابه جيب التمام.

لنفترض أن X' تم تطبيعه من تضمين X.

Normalized inner product formula صيغة الضرب الداخلي الطبيعي

يكون الارتباط بين التضمينين على النحو التالي.

Correlation between embeddings الارتباط بين التضمينين

تشابه جيب التمام

يستخدم تشابه جيب التمام جيب تمام الزاوية بين مجموعتين من المتجهات لقياس مدى تشابههما. يمكنك التفكير في مجموعتي المتجهات على أنهما قطعتان مستقيمتان تبدآن من نفس النقطة، مثل [0،0،...]، لكنهما تشيران في اتجاهين مختلفين.

لحساب التشابه في جيب التمام بين مجموعتين من المتجهات A = (a0،a1،...،an-1) وB = (b0،b1،...، bn-1)، استخدم الصيغة التالية.

Cosine similarity formula صيغة تشابه جيب التمام

يكون تشابه جيب التمام دائمًا في الفترة [-1، 1]. على سبيل المثال، متجهان متناسبان يكون تشابه جيب التمام بينهما يساوي ومتجهان متعامدان يكون التشابه بينهما يساوي ومتجهان متعاكسان يكون التشابه بينهما يساوي -1. كلما كان جيب التمام أكبر، كانت الزاوية بين المتجهين أصغر، ما يشير إلى أن هذين المتجهين متشابهان أكثر تشابهًا مع بعضهما البعض.

بطرح التشابه في جيب التمام من 1، يمكنك الحصول على مسافة جيب التمام بين المتجهين.

مسافة JACCARD

يقيس معامل التشابه JACCARD التشابه بين مجموعتين من العينات، ويُعرَّف بأنه مقدار التشابه بين مجموعتين محددتين مقسومًا على مقدار التشابه بين مجموعتين محددتين. لا يمكن تطبيقه إلا على مجموعات العينات المحدودة.

JACCARD similarity coefficient formula صيغة معامل التشابه JACCARD

تقيس المسافة JACCARD التباين بين مجموعات البيانات، ويتم الحصول عليها بطرح معامل تشابه JACCARD من 1. بالنسبة للمتغيرات الثنائية، تعادل المسافة JACCARD معامل تانيموتو.

JACCARD distance formula صيغة مسافة JACCARD

مسافة هامينج

تقيس مسافة HAMMING سلاسل البيانات الثنائية. المسافة بين سلسلتين متساويتين في الطول هي عدد مواضع البتات التي تختلف عندها البتات.

على سبيل المثال، لنفترض أن هناك سلسلتين، 1101 1001 و1001 1101.

11011001 ⊕ 10011101 = 01000100. وبما أن هذا يحتوي على اثنين من 1، فإن المسافة بين السلسلتين هي د (11011001، 10011101) = 2.

تشابه BM25

BM25 هي طريقة قياس صلة النص المستخدمة على نطاق واسع، وهي مصممة خصيصًا للبحث في النص الكامل. وهي تجمع بين العوامل الرئيسية الثلاثة التالية.

  • تردد المصطلح (TF): يقيس مدى تكرار ظهور المصطلح في المستند. في حين أن الترددات الأعلى غالبًا ما تشير إلى أهمية أكبر، يستخدم BM25 معامل التشبع k1 لمنع المصطلحات المتكررة بشكل مفرط من الهيمنة على درجة الصلة.

  • تردد المستند العكسي (IDF): يعكس أهمية المصطلح عبر المجموعة بأكملها. وتحصل المصطلحات التي تظهر في عدد أقل من المستندات على قيمة أعلى لتكرار المستند (IDF)، مما يشير إلى مساهمة أكبر في الأهمية.

  • تطبيع طول المستند: تميل المستندات الأطول إلى الحصول على درجات أعلى بسبب احتوائها على مصطلحات أكثر. يخفف BM25 من هذا التحيز من خلال تطبيع أطوال المستندات، حيث يتحكم المعامل b في قوة هذا التطبيع.

يتم حساب درجة BM25 على النحو التالي.

BM25 similarity formula معادلة تشابه BM25

وصف المعلمة.

  • Q: نص الاستعلام المقدم من المستخدم.

  • D: المستند الذي يتم تقييمه.

  • TF(qi,D): تكرار المصطلح الذي يمثل عدد مرات ظهور المصطلح qi في المستند D.

  • IDF(qi): : تردد المستند العكسي، محسوبًا على النحو التالي.

    IDF formula صيغة IDF

    حيث N هو العدد الإجمالي للمستندات في مجموعة المستندات، و n(qi) هو عدد المستندات التي تحتوي على المصطلح qi.

  • ∣D∣: طول المستند D (إجمالي عدد المصطلحات).

  • avgdl: متوسط طول جميع المستندات في المجموعة.

  • k1: يتحكم في تأثير تكرار المصطلح على النتيجة. تزيد القيم الأعلى من أهمية تكرار المصطلح. النطاق النموذجي هو [1.2، 2.0]، بينما يسمح ميلفوس بنطاق [0، 3].

  • b: يتحكم في درجة تطبيع الطول، وتتراوح من 0 إلى 1. عندما تكون القيمة 0، لا يتم تطبيق أي تطبيع؛ وعندما تكون القيمة 1، يتم تطبيق التطبيع الكامل.

جرب Managed Milvus مجاناً

Zilliz Cloud خالي من المتاعب، ويعمل بواسطة Milvus ويعمل بسرعة 10 أضعاف.

ابدأ
التعليقات

هل كانت هذه الصفحة مفيدة؟