قمنا بتدريب نموذج تسليط الضوء الدلالي ثنائي اللغة على نموذج تسليط الضوء الدلالي ثنائي اللغة لإنتاج RAG والبحث بالذكاء الاصطناعي
سواء كنت تنشئ بحثًا عن منتج أو خط أنابيب RAG أو وكيل ذكاء اصطناعي، يحتاج المستخدمون في النهاية إلى نفس الشيء: طريقة سريعة لمعرفة سبب ارتباط النتيجة. يساعد التظليل من خلال وضع علامة على النص الدقيق الذي يدعم التطابق، بحيث لا يضطر المستخدمون إلى مسح المستند بأكمله.
لا تزال معظم الأنظمة تعتمد على التظليل القائم على الكلمات الرئيسية. إذا بحث المستخدم عن "أداء iPhone"، فإن النظام يبرز الرموز الدقيقة "iPhone" و"الأداء". ولكن هذا ينهار بمجرد أن يعبّر النص عن نفس الفكرة باستخدام صياغات مختلفة. فوصف مثل "رقاقة A15 Bionic، أكثر من مليون في المعايير، سلس بدون تأخير" يتناول الأداء بوضوح، ومع ذلك لا يتم تمييز أي شيء لأن الكلمات الرئيسية لا تظهر أبدًا.
التظليل الدلالي يحل هذه المشكلة. فبدلاً من مطابقة السلاسل الدقيقة، فإنه يحدد الامتدادات النصية التي تتماشى دلالياً مع الاستعلام. بالنسبة لأنظمة RAG، والبحث بالذكاء الاصطناعي، والوكلاء - حيث تعتمد الأهمية على المعنى وليس على الشكل السطحي - ينتج عن ذلك تفسيرات أكثر دقة وموثوقية لسبب استرجاع المستند.
ومع ذلك، فإن طرق التظليل الدلالي الحالية ليست مصممة لإنتاج أعباء عمل الذكاء الاصطناعي. بعد تقييم جميع الحلول المتاحة، وجدنا أن أياً منها لا يوفر الدقة أو زمن الاستجابة أو التغطية متعددة اللغات أو المتانة المطلوبة لخطوط أنابيب RAG أو أنظمة الوكلاء أو البحث على نطاق واسع على الويب. لذلك قمنا بتدريب نموذج التظليل الدلالي ثنائي اللغة الخاص بنا - وقمنا بتدريب نموذجنا الخاص بنا - وقمنا بإتاحته.
نموذج التمييز الدلالي الخاص بنا: zilliz/semantic-highlight-highlight-bilingual-v1
أخبرنا برأيك - انضم إلى موقعنا Discord، أو تابعنا على LinkedIn، أو احجز معنا جلسة ساعات عمل Milvus لمدة 20 دقيقة.
كيف يعمل التظليل القائم على الكلمات الرئيسية - ولماذا يفشل في أنظمة الذكاء الاصطناعي الحديثة
تقوم أنظمة البحث التقليدية بتنفيذ التظليل من خلال مطابقة الكلمات المفتاحية البسيطة. عندما يتم إرجاع النتائج، يقوم المحرك بتحديد مواضع الرموز المميزة التي تطابق الاستعلام ويغلفها في ترميز (عادةً <em> )، تاركًا للواجهة الأمامية عرض التظليل. يعمل هذا بشكل جيد عندما تظهر مصطلحات الاستعلام حرفياً في النص.
وتكمن المشكلة في أن هذا النموذج يفترض أن الصلة مرتبطة بتداخل الكلمات المفتاحية بالضبط. بمجرد أن ينهار هذا الافتراض، تنخفض الموثوقية بسرعة. فأي نتيجة تعبّر عن الفكرة الصحيحة بصياغة مختلفة ينتهي بها الأمر بدون تمييز على الإطلاق، حتى لو كانت خطوة الاسترجاع صحيحة.
يصبح هذا الضعف واضحًا في تطبيقات الذكاء الاصطناعي الحديثة. في خطوط أنابيب RAG وسير عمل وكيل الذكاء الاصطناعي، تكون الاستعلامات أكثر تجريدًا، والمستندات أطول، وقد لا يتم إعادة استخدام المعلومات ذات الصلة بنفس الكلمات. لم يعد بإمكان التظليل المستند إلى الكلمات الرئيسية أن يُظهر للمطورين - أو المستخدمين النهائيين - مكانالإجابة بالفعل، مما يجعل النظام الكلي أقل دقة حتى عندما يعمل الاسترجاع على النحو المنشود.
لنفترض أن المستخدم يسأل: "كيف يمكنني تحسين كفاءة تنفيذ كود بايثون؟ يسترجع النظام مستندًا تقنيًا من قاعدة بيانات متجهة. يمكن للتمييز التقليدي وضع علامة على التطابقات الحرفية فقط مثل "بايثون" و "الكود" و "التنفيذ" و "الكفاءة" .
ومع ذلك، قد تكون الأجزاء الأكثر فائدة من المستند:
استخدام عمليات NumPy المتجهة بدلًا من الحلقات الصريحة
تجنب إنشاء كائنات متكررة داخل الحلقات
تجيب هذه الجمل عن السؤال مباشرة، لكنها لا تحتوي على أي من مصطلحات الاستعلام. ونتيجة لذلك، يفشل التظليل التقليدي تمامًا. قد يكون المستند ذا صلة، ولكن لا يزال يتعين على المستخدم مسحه سطرًا بسطر لتحديد موقع الإجابة الفعلية.
تصبح المشكلة أكثر وضوحًا مع وكلاء الذكاء الاصطناعي. غالبًا ما لا يكون استعلام البحث الخاص بالوكيل هو السؤال الأصلي للمستخدم، بل هو تعليمات مشتقة تم إنتاجها من خلال التفكير المنطقي وتفكيك المهام. على سبيل المثال، إذا سأل المستخدم، "هل يمكنك تحليل اتجاهات السوق الأخيرة؟"، فقد يقوم الوكيل بإنشاء استعلام مثل "استرجاع بيانات مبيعات الإلكترونيات الاستهلاكية للربع الرابع من عام 2024، ومعدلات النمو السنوية، والتغيرات في الحصة السوقية للمنافسين الرئيسيين، وتقلبات تكلفة سلسلة التوريد".
يغطي هذا الاستعلام أبعادًا متعددة ويعبّر عن نية معقدة. ومع ذلك، لا يمكن للتمييز التقليدي المستند إلى الكلمات المفتاحية أن يحدد فقط التطابقات الحرفية مثل "2024" أو "بيانات المبيعات" أو "معدل النمو".
وفي الوقت نفسه، قد تبدو الرؤى الأكثر قيمة مثل:
قادت سلسلة iPhone 15 إلى انتعاش السوق على نطاق أوسع
أدت قيود توريد الرقاقات إلى ارتفاع التكاليف بنسبة 15%
قد لا تشترك هذه الاستنتاجات في كلمة رئيسية واحدة مع الاستعلام، على الرغم من أنها بالضبط ما يحاول الوكيل استخلاصه. يحتاج الوكلاء إلى تحديد المعلومات المفيدة حقًا بسرعة من الكميات الكبيرة من المحتوى المسترجع - ولا يقدم التظليل الدلالي القائم على الكلمات المفتاحية أي مساعدة حقيقية.
ما هو التظليل الدلالي، ونقاط الضعف في الحلول الحالية
يعتمد التظليل الدلالي على نفس الفكرة الكامنة وراء البحث الدلالي: المطابقة على أساس المعنى بدلاً من الكلمات الدقيقة. في البحث الدلالي، تقوم نماذج التضمين في البحث الدلالي بتحويل النص إلى متجهات بحيث يمكنلنظام البحث - المدعوم عادةً بقاعدة بيانات متجهة مثل ميلفوس -استرداد المقاطع التي تنقل نفس الفكرة التي ينقلها الاستعلام، حتى لو كانت الصياغة مختلفة. يطبّق التظليل الدلالي هذا المبدأ على مستوى أدق. فبدلاً من وضع علامات على الكلمات المفتاحية الحرفية، فإنه يسلط الضوء على المقاطع المحددة داخل المستند ذات الصلة الدلالية بقصد المستخدم.
يحل هذا النهج مشكلة أساسية في التظليل التقليدي، والذي يعمل فقط عندما تظهر مصطلحات الاستعلام حرفياً. فإذا بحث المستخدم عن "أداء iPhone"، يتجاهل التظليل القائم على الكلمات المفتاحية عبارات مثل "شريحة A15 Bionic" أو "أكثر من مليون في المعايير" أو "سلس بدون تأخير"، على الرغم من أن هذه العبارات تجيب بوضوح على السؤال. أما التظليل الدلالي فيلتقط هذه الروابط القائمة على المعنى ويبرز أجزاء النص التي يهتم بها المستخدمون بالفعل.
من الناحية النظرية، هذه مشكلة مطابقة دلالية مباشرة. تقوم نماذج التضمين الحديثة بالفعل بترميز التشابه بشكل جيد، لذا فإن الأجزاء المفاهيمية موجودة بالفعل. يأتي التحدي من قيود العالم الواقعي: يحدث التظليل في كل استعلام، وغالبًا ما يحدث عبر العديد من المستندات المسترجعة، مما يجعل زمن الاستجابة والإنتاجية والمتانة عبر المجالات متطلبات غير قابلة للتفاوض. النماذج اللغوية الكبيرة هي ببساطة بطيئة جدًا ومكلفة للغاية بحيث لا يمكن تشغيلها في هذا المسار عالي التردد.
لهذا السبب يتطلب تسليط الضوء الدلالي العملي نموذجًا متخصصًا خفيف الوزن - صغيرًا بما يكفي ليجلس جنبًا إلى جنب مع البنية التحتية للبحث وسريعًا بما يكفي لإرجاع النتائج في بضعة أجزاء من الثانية. هذا هو المكان الذي تتعطل فيه معظم الحلول الحالية. فالنماذج الثقيلة توفر الدقة ولكن لا يمكن تشغيلها على نطاق واسع؛ أما النماذج الأخف وزناً فهي سريعة ولكنها تفقد الدقة أو تفشل في البيانات متعددة اللغات أو البيانات الخاصة بمجال معين.
Opensearch-semantic-semantic-highlighter
في العام الماضي، أصدرت OpenSearch العام الماضي نموذجًا مخصصًا للتمييز الدلالي: opensearch-semantic-hemantic-highlighter-v1. وعلى الرغم من أنها محاولة مفيدة لحل المشكلة، إلا أنها تعاني من قصورين مهمين.
نافذة سياق صغيرة: يستند النموذج على بنية BERT ويدعم 512 رمزًا كحد أقصى - ما يقرب من 300-400 حرف صيني أو 400-500 كلمة إنجليزية. في سيناريوهات العالم الحقيقي، غالبًا ما تمتد أوصاف المنتجات والمستندات التقنية لآلاف الكلمات. يتم ببساطة اقتطاع المحتوى الذي يتجاوز النافذة الأولى، مما يجبر النموذج على تحديد النقاط البارزة بناءً على جزء صغير فقط من المستند.
تعميم ضعيف خارج المجال: يعمل النموذج بشكل جيد فقط على توزيعات البيانات المشابهة لمجموعة التدريب الخاصة به. عند تطبيقه على بيانات خارج المجال - مثل استخدام نموذج مُدرَّب على مقالات إخبارية لتسليط الضوء على محتوى التجارة الإلكترونية أو الوثائق التقنية - يتدهور الأداء بشكل حاد. في تجاربنا، يحقق النموذج درجة F1 تبلغ حوالي 0.72 على البيانات داخل النطاق، ولكنه ينخفض إلى حوالي 0.46 على مجموعات البيانات خارج النطاق. هذا المستوى من عدم الاستقرار يمثل مشكلة في الإنتاج. بالإضافة إلى ذلك، لا يدعم النموذج اللغة الصينية.
بروفانس/إكس بروفانس
بروفانس هو نموذج تم تطويره من قبل Naver وتم تدريبه في البداية على تشذيب السياق - وهيمهمة ترتبط ارتباطًا وثيقًا بالتمييز الدلالي.
كلتا المهمتين مبنية على نفس الفكرة الأساسية: استخدام المطابقة الدلالية لتحديد المحتوى ذي الصلة وتصفية الأجزاء غير ذات الصلة. لهذا السبب، يمكن إعادة استخدام بروفانس في التظليل الدلالي مع القليل من التكييف نسبيًا.
بروفانس هو نموذج باللغة الإنجليزية فقط ويؤدي أداءً جيدًا بشكل معقول في هذا الإعداد. أما XProvence فهو نموذج متعدد اللغات يدعم أكثر من اثنتي عشرة لغة، بما في ذلك الصينية واليابانية والكورية. للوهلة الأولى، هذا يجعل XProvence يبدو للوهلة الأولى مرشحًا جيدًا لسيناريوهات التظليل الدلالي ثنائي اللغة أو متعدد اللغات.
ومع ذلك، من الناحية العملية، يعاني كل من بروفانس وإكس بروفانس من عدة قيود ملحوظة:
ضعف أداء اللغة الإنجليزية في النموذج متعدد اللغات: لا يتطابق أداء XProvence مع أداء بروفانس في معايير اللغة الإنجليزية. هذه مفاضلة شائعة في النماذج متعددة اللغات: يتم تقاسم السعة بين اللغات، مما يؤدي غالبًا إلى أداء أضعف في اللغات ذات الموارد العالية مثل الإنجليزية. هذا القيد مهم في أنظمة العالم الحقيقي حيث تظل اللغة الإنجليزية عبء العمل الأساسي أو المهيمن.
أداء صيني محدود: يدعم XProvence العديد من اللغات. أثناء التدريب متعدد اللغات، تتوزع البيانات وقدرة النموذج على عدة لغات، مما يحد من مدى قدرة النموذج على التخصص في لغة واحدة. ونتيجةً لذلك، فإن أداءه باللغة الصينية مقبول بشكل هامشي فقط وغالباً ما يكون غير كافٍ لحالات استخدام التمييز عالية الدقة.
عدم التطابق بين أهداف التقليم والتمييز: تم تحسين بروفانس من أجل تشذيب السياق، حيث تكون الأولوية هي التذكّر - الاحتفاظ بأكبر قدر ممكن من المحتوى المفيد المحتمل لتجنب فقدان المعلومات المهمة. على النقيض من ذلك، يركّز التظليل الدلالي على الدقة: تسليط الضوء على الجمل الأكثر صلة فقط، وليس على أجزاء كبيرة من المستند. عندما يتم تطبيق نماذج على غرار بروفانس على التظليل، غالبًا ما يؤدي عدم التطابق هذا إلى إبرازات واسعة أو صاخبة بشكل مفرط.
الترخيص المقيد: تم إصدار كل من بروفانس وإكس بروفانس بموجب ترخيص CC BY-NC 4.0، والذي لا يسمح بالاستخدام التجاري. هذا التقييد وحده يجعلهما غير مناسبين للعديد من عمليات النشر الإنتاج.
بروفانس المفتوح
أوبن بروفانس هو مشروع يقوده المجتمع المحلي ويعيد تنفيذ خط أنابيب تدريب بروفانس بطريقة مفتوحة وشفافة. وهو لا يوفر فقط البرامج النصية للتدريب، بل يوفر أيضًا سير عمل معالجة البيانات، وأدوات التقييم، والنماذج المدربة مسبقًا على مستويات متعددة.
الميزة الرئيسية لبرنامج Open Provence المفتوح هي رخصة MIT المتساهلة. على عكس بروفانس وإكس بروفنس، يمكن استخدامه بأمان في البيئات التجارية دون قيود قانونية، مما يجعله جذابًا للفرق الموجهة للإنتاج.
ومع ذلك، يدعم Open Provence المفتوح حاليًا اللغتين الإنجليزية واليابانية فقط، مما يجعله غير مناسب لحالات الاستخدام ثنائية اللغة لدينا.
قمنا بتدريب نموذج تسليط الضوء الدلالي ثنائي اللغة وإتاحته للمصادر المفتوحة
يجب أن يوفر نموذج التظليل الدلالي المصمم لأعباء العمل في العالم الحقيقي بعض القدرات الأساسية:
أداء قوي متعدد اللغات
نافذة سياق كبيرة بما يكفي لدعم المستندات الطويلة
تعميم قوي خارج المجال
دقة عالية في مهام التظليل الدلالي
ترخيص متساهل ومناسب للإنتاج (MIT أو Apache 2.0)
بعد تقييم الحلول الموجودة، وجدنا أن أياً من النماذج المتاحة لا تفي بالمتطلبات اللازمة للاستخدام في الإنتاج. لذلك قررنا تدريب نموذج التظليل الدلالي الخاص بنا: zilliz/semantic-highlight-highlight-bilingual-v1.
ولتحقيق كل ذلك، اعتمدنا نهجاً مباشراً: استخدام نماذج لغوية كبيرة لتوليد بيانات موسومة عالية الجودة، ثم تدريب نموذج تمييز دلالي خفيف الوزن فوقها باستخدام أدوات مفتوحة المصدر. يتيح لنا ذلك الجمع بين القوة الاستدلالية لنماذج التمييز الدلالي الكبيرة والكفاءة والكمون المنخفض المطلوبين في أنظمة الإنتاج.
الجزء الأكثر تحديًا في هذه العملية هو بناء البيانات. أثناء الشرح، نطلب من LLM (Qwen3 8B) أثناء الشرح، أن يُخرج ليس فقط الامتدادات المميزة ولكن أيضًا المنطق الكامل وراءها. تُنتج إشارة التعليل الإضافية هذه إشرافًا أكثر دقة واتساقًا وتحسّن جودة النموذج الناتج بشكل كبير.
على مستوى عالٍ، يعمل خط أنابيب الشرح على النحو التالي: استدلال LLM ← تسميات التمييز ← التسميات المميزة ← التصفية ← عينة التدريب النهائية.
يوفر هذا التصميم ثلاث فوائد ملموسة في الممارسة العملية:
جودة تصنيف أعلى: يُطلب من النموذج التفكير أولاً، ثم الإجابة. تعمل خطوة الاستدلال الوسيطة هذه بمثابة فحص ذاتي مدمج، مما يقلل من احتمالية التسميات السطحية أو غير المتسقة.
تحسين قابلية الملاحظة والتصحيح: نظرًا لأن كل تسمية تكون مصحوبة بتتبع تعليلي، تصبح الأخطاء مرئية. وهذا يجعل من السهل تشخيص حالات الفشل وتعديل المطالبات أو القواعد أو مرشحات البيانات بسرعة في خط الأنابيب.
بيانات قابلة لإعادة الاستخدام: توفر آثار الاستدلال سياقًا قيّمًا لإعادة التسمية في المستقبل. ومع تغير المتطلبات، يمكن إعادة النظر في البيانات نفسها وتنقيحها دون البدء من الصفر.
باستخدام هذا الخط، أنتجنا أكثر من مليون عينة تدريب ثنائية اللغة، مقسمة بالتساوي تقريباً بين اللغتين الإنجليزية والصينية.
لتدريب النموذج، بدأنا من BGE-M3 Reranker الإصدار 2 (0.6 مليار معلمة ونافذة سياق مكونة من 8192 رمزًا)، واعتمدنا إطار عمل التدريب Open Provence، وقمنا بالتدريب لثلاث مراحل على وحدات معالجة رسومات 8×A100، وأكملنا التدريب في حوالي خمس ساعات.
سوف نتعمق أكثر في هذه الخيارات التقنية - بما في ذلك سبب اعتمادنا على آثار التفكير، وكيف اخترنا النموذج الأساسي، وكيف تم إنشاء مجموعة البيانات - في منشور لاحق.
المقارنة المعيارية لنموذج تسليط الضوء الدلالي ثنائي اللغة الخاص بزيليز
لتقييم الأداء في العالم الحقيقي، قمنا بتقييم نماذج تسليط الضوء الدلالي المتعددة عبر مجموعة متنوعة من مجموعات البيانات. تغطي المعايير كلاً من السيناريوهات داخل المجال وخارجه، باللغتين الإنجليزية والصينية، لتعكس تنوع المحتوى الذي تتم مواجهته في أنظمة الإنتاج.
مجموعات البيانات
استخدمنا مجموعات البيانات التالية في تقييمنا:
MultiSpanQA (باللغة الإنجليزية) - مجموعة بيانات للإجابة على الأسئلة متعددة النطاقات داخل النطاق
WikiText-2 (بالإنجليزية) - مجموعة بيانات ويكيبيديا خارج النطاق
MultiSpanQA-ZH (صيني) - مجموعة بيانات صينية متعددة النطاقات للإجابة على الأسئلة
WikiText-2-ZH (صيني) - مجموعة بيانات ويكيبيديا صينية خارج المجال
النماذج المقارنة
النماذج المدرجة في المقارنة هي:
نماذج بروفانس المفتوحة
بروفانس/ إكس بروفانس (صادر عن نافر)
أداة التمييز الدلالي OpenSearch Semantic Highlighter
نموذج Zilliz للتمييز الدلالي ثنائي اللغة
النتائج والتحليل
مجموعات البيانات الإنجليزية:
مجموعات البيانات الصينية:
عبر المعايير ثنائية اللغة، يحقق نموذجنا متوسط درجات F1 الأكثر تطوراً، متفوقاً بذلك على جميع النماذج والنهج التي تم تقييمها سابقاً. تتضح المكاسب بشكل خاص في مجموعات البيانات الصينية، حيث يتفوق نموذجنا بشكل ملحوظ على XProvence - النموذج الوحيد الآخر الذي تم تقييمه مع دعم اللغة الصينية.
والأهم من ذلك أن نموذجنا يقدم أداءً متوازنًا في اللغتين الإنجليزية والصينية، وهي خاصية تكافح الحلول الحالية لتحقيقها:
يدعمOpen Provence اللغة الإنجليزية فقط
يضحيXProvence بأداء اللغة الإنجليزية مقارنةً بنموذج بروفانس
يفتقرOpenSearch Semantic Highlighter إلى دعم اللغة الصينية ويُظهر تعميماً ضعيفاً
ونتيجةً لذلك، يتجنب نموذجنا المفاضلة الشائعة بين التغطية اللغوية والأداء، مما يجعله أكثر ملاءمة لعمليات النشر ثنائية اللغة في العالم الحقيقي.
مثال ملموس في الممارسة العملية
بالإضافة إلى النتائج القياسية، غالبًا ما يكون فحص مثال ملموس أكثر وضوحًا. تُظهر الحالة التالية كيف يتصرف نموذجنا في سيناريو تسليط الضوء الدلالي الحقيقي وسبب أهمية الدقة.
استعلام: من كتب فيلم "قتل غزال مقدس"؟
السياق (5 جمل):
فيلم The Killing of a Sacred Deer (قتل غزال مقدس ) هو فيلم إثارة نفسية من إخراج يورغوس لانثيموس عام 2017، وكتب السيناريو لانثيموس وإفثيميس فيليبو.
الفيلم من بطولة كولين فاريل ونيكول كيدمان وباري كيوغان ورافي كاسيدي وساني سولجيتش وأليسيا سيلفرستون وبيل كامب.
القصة مأخوذة عن المسرحية اليونانية القديمة "إيفيجينيا في أوليس " ليوريبيدس.
تدور أحداث الفيلم حول جرّاح قلب يكوّن صداقة سرية مع صبي مراهق مرتبط بماضيه.
يقوم بتعريف الصبي على عائلته، وبعد ذلك تبدأ أمراض غامضة في الحدوث.
تسليط الضوء الصحيح: الجملة 1 هي الإجابة الصحيحة، لأنها تنص صراحةً على أن السيناريو من تأليف يورغوس لانثيموس وإفثيميس فيليبو.
يحتوي هذا المثال على فخ خفي. تشير الجملة 3 إلى يوريبيدس، مؤلف المسرحية اليونانية الأصلية التي استندت إليها القصة بشكل فضفاض. ومع ذلك، فإن السؤال يسأل عمن كتب الفيلم، وليس عن المادة المصدرية القديمة. وبالتالي فإن الإجابة الصحيحة هي كاتب سيناريو الفيلم، وليس كاتب المسرحية منذ آلاف السنين.
النتائج:
يلخص الجدول أدناه أداء النماذج المختلفة في هذا المثال.
| النموذج | الإجابة الصحيحة التي تم تحديدها | النتيجة |
|---|---|---|
| نموذجنا (M3 ثنائي اللغة) | ✓ | الجملة المختارة 1 (صحيحة) والجملة 3 |
| سبروفانس م1 | ✗ | اخترت الجملة 3 فقط، وأخطأت الإجابة الصحيحة |
| XProvence v2 | ✗ | اخترت الجملة 3 فقط، وأخطأت الإجابة الصحيحة |
مقارنة نقاط مستوى الجملة
| الجملة | لنا (M3 ثنائي اللغة) | XProvence v1 | XProvence v2 |
|---|---|---|---|
| الجملة 1 (سيناريو فيلم، صحيح) | 0.915 | 0.133 | 0.081 |
| الجملة 3 (مسرحية أصلية، مشتتة) | 0.719 | 0.947 | 0.802 |
حيث يقصر XProvence
ينجذب برنامج XProvence بشدة إلى الكلمتين الرئيسيتين "يوريبيدس" و "كتب"، حيث يمنح الجملة 3 درجة شبه كاملة (0.947 و0.802).
وفي الوقت نفسه، يتجاهل إلى حد كبير الإجابة الصحيحة في الجملة 1، حيث يعيّن درجات منخفضة للغاية (0.133 و0.081).
حتى بعد خفض عتبة القرار من 0.5 إلى 0.2، لا يزال النموذج يفشل في تحديد الإجابة الصحيحة.
وبعبارة أخرى، فإن النموذج مدفوع في المقام الأول بارتباطات الكلمات الرئيسية على مستوى السطح بدلاً من القصد الفعلي للسؤال.
كيف يتصرف نموذجنا بشكل مختلف
يعيّن نموذجنا درجة عالية (0.915) للإجابة الصحيحة في الجملة 1، حيث يحدد بشكل صحيح كتاب سيناريو الفيلم.
كما أنه يخصص درجة معتدلة (0.719) للجملة 3، حيث أن هذه الجملة تذكر مفهومًا متعلقًا بالسيناريو.
والأهم من ذلك أن الفصل واضح وذو مغزى: 0.915 مقابل 0.719، أي فجوة تقارب 0.2.
يسلط هذا المثال الضوء على القوة الأساسية لنهجنا: تجاوز الارتباطات القائمة على الكلمات الرئيسية لتفسير نية المستخدم بشكل صحيح. حتى عندما تظهر مفاهيم "المؤلف" المتعددة، يبرز النموذج باستمرار المفهوم الذي يشير إليه السؤال بالفعل.
سنشارك تقرير تقييم أكثر تفصيلاً ودراسات حالة إضافية في منشور لاحق.
جرّبه وأخبرنا برأيك
لقد قمنا بإتاحة نموذج التظليل الدلالي ثنائي اللغة الخاص بنا على موقع Hugging Face، مع إتاحة جميع أوزان النموذج للجمهور حتى تتمكن من البدء في التجربة على الفور. نود أن نسمع كيف يعمل هذا النموذج بالنسبة لك - يرجى مشاركة أي ملاحظات أو مشاكل أو أفكار تحسينية أثناء تجربته.
بالتوازي مع ذلك، نحن نعمل على خدمة استدلال جاهزة للإنتاج ودمج النموذج مباشرةً في Milvus كواجهة برمجة تطبيقات تسليط الضوء الدلالي الأصلية. هذا التكامل جارٍ بالفعل وسيكون متاحًا قريبًا.
يفتح التظليل الدلالي الباب أمام تجربة أكثر سهولة في RAG والذكاء الاصطناعي العميل. عندما يسترجع Milvus العديد من المستندات الطويلة، يمكن للنظام أن يظهر على الفور الجمل الأكثر صلة بالموضوع، مما يوضح مكان الإجابة. لا يؤدي ذلك إلى تحسين تجربة المستخدم النهائي فحسب - بل يساعد المطورين أيضًا على تصحيح أخطاء خطوط أنابيب الاسترجاع من خلال إظهار أجزاء السياق التي يعتمد عليها النظام بالضبط.
نحن نعتقد أن التظليل الدلالي سيصبح قدرة قياسية في الجيل التالي من أنظمة البحث والاسترجاع. إذا كانت لديك أفكار أو اقتراحات أو حالات استخدام للتمييز الدلالي ثنائي اللغة، انضم إلى قناة Discord الخاصة بنا وشاركنا أفكارك. يمكنك أيضًا حجز جلسة فردية مدتها 20 دقيقة للحصول على رؤى وإرشادات وإجابات على أسئلتك من خلال ساعات عمل Milvus المكتبية.
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word



