Milvus
Zilliz
  • Home
  • Blog
  • كيف بنينا نموذج تسليط الضوء الدلالي لتشذيب سياق RAG وحفظ الرموز

كيف بنينا نموذج تسليط الضوء الدلالي لتشذيب سياق RAG وحفظ الرموز

  • Engineering
January 19, 2026
Cheney Zhang, Jiang Chen

المشكلة ضوضاء RAG وإهدار الرموز

يُعدالبحث المتجه أساساً متيناً لأنظمة RAG - مساعدو المؤسسات، ووكلاء الذكاء الاصطناعي، وروبوتات دعم العملاء، وغيرها. فهو يعثر بشكل موثوق على المستندات المهمة. ولكن الاسترجاع وحده لا يحل مشكلة السياق. فحتى الفهارس التي تم ضبطها بشكل جيد تُرجع أجزاءً ذات صلة على نطاق واسع، في حين أن جزءًا صغيرًا فقط من الجمل الموجودة داخل تلك الأجزاء تجيب فعليًا على الاستعلام.

في أنظمة الإنتاج، تظهر هذه الفجوة على الفور. قد يسحب استعلام واحد عشرات المستندات، طول كل منها آلاف الرموز. عدد قليل فقط من الجمل يحتوي على الإشارة الفعلية؛ أما الباقي فهو عبارة عن سياق يزيد من استخدام الرموز ويبطئ عملية الاستدلال وغالبًا ما يشتت انتباه LLM. وتصبح المشكلة أكثر وضوحًا في عمليات سير عمل الوكيل، حيث تكون الاستعلامات نفسها ناتجًا عن الاستدلال متعدد الخطوات ولا تتطابق إلا مع أجزاء صغيرة من النص المسترجع.

وهذا يخلق حاجة واضحة لنموذج يمكنه تحديد الجمل المفيدة وإبرازها وتجاهل الباقي - أيتصفية الملاءمة على مستوى الجملة، أو ما تشير إليه العديد من الفرق باسم تشذيب السياق. والهدف بسيط: الاحتفاظ بالأجزاء المهمة وإسقاط الضوضاء قبل أن تصل إلى LLM.

لا يمكن للتمييز التقليدي القائم على الكلمات الرئيسية حل هذه المشكلة. على سبيل المثال، إذا سأل المستخدم، "كيف يمكنني تحسين كفاءة تنفيذ التعليمات البرمجية لبايثون"، فإن أداة تمييز الكلمات المفتاحية ستختار "بايثون" و"الكفاءة"، ولكنها ستفقد الجملة التي تجيب بالفعل على السؤال - "استخدم عمليات NumPy المتجهة بدلاً من الحلقات" - لأنها لا تشترك في أي كلمات مفتاحية مع الاستعلام. ما نحتاجه بدلًا من ذلك هو الفهم الدلالي وليس مطابقة السلسلة.

نموذج تسليط الضوء الدلالي لتصفية ضوضاء RAG وتشذيب السياق

ولتسهيل هذا الأمر على منشئي RAG، قمنا بتدريب نموذج تسليط الضوء الدلالي الذي يحدد ويبرز الجمل في المستندات المسترجعة التي تتوافق دلاليًا مع الاستعلام ويبرزها. يقدم النموذج حاليًا أحدث أداء في كل من اللغتين الإنجليزية والصينية، وهو مصمم ليُدمج مباشرةً في خطوط أنابيب RAG الحالية.

تفاصيل النموذج

  • HuggingFace: zilliz/semantic-highlight-bilingual-v1

  • الترخيص: معهد ماساتشوستس للتكنولوجيا (تجاري)

  • البنية: 0.6B نموذج مشفر فقط مبني على BGE-M3 Ranker v2

  • نافذة السياق: 8192 رمزًا

  • اللغات المدعومة: الإنجليزية والصينية

يوفر التظليل الدلالي إشارات الملاءمة اللازمة لتحديد الأجزاء المفيدة فقط من المستندات الطويلة المسترجعة. من الناحية العملية، يتيح هذا النموذج:

  • تحسين قابلية التفسير، وإظهار الأجزاء المهمة بالفعل من المستند

  • تقليل تكلفة الرمز المميز بنسبة 70-80% عن طريق إرسال الجمل المميزة فقط إلى نموذج التظليل اللغوي

  • جودة إجابة أفضل، حيث يرى النموذج سياقًا أقل غير ذي صلة

  • تصحيح أسهل، لأن المهندسين يمكنهم فحص التطابقات على مستوى الجملة مباشرةً

نتائج التقييم: تحقيق أداء SOTA

لقد قمنا بتقييم نموذج التظليل الدلالي الخاص بنا عبر مجموعات بيانات متعددة تشمل اللغتين الإنجليزية والصينية، في كل من الظروف داخل المجال وخارج المجال.

تتضمن المجموعات المعيارية ما يلي:

  • ضمان الجودة متعدد النطاق باللغة الإنجليزية: multispanqa

  • ويكيبيديا الإنجليزية خارج النطاق: wikitext2

  • ضمان الجودة الصيني متعدد الامتدادات: multispanqa_zh

  • ويكيبيديا الصينية خارج النطاق: wikitext2_zh

تشمل النماذج التي تم تقييمها:

  • سلسلة بروفانس المفتوحة

  • سلسلة Naver's Provence/XProvence من Naver

  • أداة التمييز الدلالي OpenSearch's semantic-highlighter

  • نموذجنا ثنائي اللغة المدرّب: zilliz/semantic-highlight-highlight-bilingual-v1

عبر جميع مجموعات البيانات الأربع، يحقق نموذجنا أعلى تصنيف. والأهم من ذلك أنه النموذج الوحيد الذي يحقق أداءً جيدًا باستمرار على اللغتين الإنجليزية والصينية. حيث تركز النماذج المنافسة إما على اللغة الإنجليزية فقط أو تُظهر انخفاضاً واضحاً في الأداء على النص الصيني.

كيف قمنا ببناء نموذج التظليل الدلالي هذا

تدريب نموذج لهذه المهمة ليس هو الجزء الصعب؛ تدريب نموذج جيد يتعامل مع المشاكل السابقة ويقدم أداءً قريبًا من أداء SOTA هو الجزء الذي يحدث فيه العمل الحقيقي. ركز نهجنا على أمرين

  • بنية النموذج: استخدام تصميم مشفر فقط للاستدلال السريع.

  • بيانات التدريب: توليد تسميات ملاءمة عالية الجودة باستخدام نماذج LLM ذات القدرة على الاستدلال وتوليد البيانات على نطاق واسع باستخدام أطر الاستدلال المحلية.

بنية النموذج

قمنا ببناء النموذج كشبكة تشفير خفيفة الوزن فقط تتعامل مع تشذيب السياق كمهمة تسجيل الملاءمة على مستوى الرمز المميز. هذا التصميم مستوحى من بروفانس، وهو نهج تقليم السياق الذي قدمته شركة Naver في ICLR 2025، والذي يعيد صياغة التقليم من "اختيار الجزء الصحيح" إلى "تسجيل كل رمز رمزي". يتماشى هذا التأطير بشكل طبيعي مع التظليل الدلالي، حيث تكون الإشارات الدقيقة ضرورية.

نماذج التشفير فقط ليست أحدث بنية معمارية لكنها تظل عملية للغاية هنا: فهي سريعة وسهلة التوسع، ويمكنها إنتاج درجات الملاءمة لجميع مواضع الرموز الرمزية بالتوازي. بالنسبة لنظام RAG للإنتاج، فإن ميزة السرعة هذه أكثر أهمية بكثير من استخدام نموذج فك ترميز أكبر.

بمجرد حساب درجات الملاءمة على مستوى الرمز المميز، نقوم بتجميعها في درجات على مستوى الجملة. تُحوِّل هذه الخطوة إشارات الرموز المشوشة إلى مقياس صلة مستقر وقابل للتفسير. يتم تمييز الجمل التي تتجاوز عتبة قابلة للتكوين؛ ويتم تصفية كل شيء آخر. ينتج عن ذلك آلية بسيطة وموثوقة لاختيار الجمل التي تهم الاستعلام بالفعل.

عملية الاستدلال

في وقت التشغيل، يتبع نموذج التظليل الدلالي الخاص بنا خط أنابيب بسيط:

  1. المدخلات- تبدأ العملية باستعلام المستخدم. يتم التعامل مع المستندات المسترجعة كسياق مرشح لتقييم مدى الصلة.

  2. معالجة النموذج- يتم دمج الاستعلام والسياق في تسلسل واحد: [BOS] + الاستعلام + السياق

  3. قياس الرمز المميز - يتم تعيين درجة صلة لكل رمز في السياق بين 0 و1، مما يعكس مدى ارتباطه بقوة بالاستعلام.

  4. تجميع الجمل- يتم تجميع درجات الرموز الرمزية على مستوى الجملة، عادةً عن طريق حساب المتوسط، للحصول على درجة صلة لكل جملة.

  5. تصفية العتبة- يتم تمييز الجمل ذات الدرجات الأعلى من عتبة قابلة للتكوين والاحتفاظ بها، بينما يتم تصفية الجمل ذات الدرجات المنخفضة قبل تمريرها إلى وحدة تحليل الارتباط النهائية.

النموذج الأساسي: BGE-M3 Reranker v2

اخترنا BGE-M3 Reranker v2 كنموذجنا الأساسي لعدة أسباب:

  1. أنه يستخدم بنية تشفير مناسبة لتسجيل الرموز والجمل

  2. يدعم لغات متعددة مع تحسينات لكل من اللغتين الإنجليزية والصينية

  3. يوفر نافذة سياق 8192 رمزًا رمزيًا مناسبًا لمستندات RAG الأطول

  4. يحافظ على 0.6 مليار معلمة - قوي بما فيه الكفاية دون أن يكون ثقيلًا من الناحية الحسابية

  5. يضمن معرفة عالمية كافية في النموذج الأساسي

  6. مُدرَّب على إعادة الترتيب، وهو ما يتماشى بشكل وثيق مع مهام الحكم على الملاءمة

بيانات التدريب: شرح LLM مع الاستدلال

بعد أن انتهينا من وضع اللمسات الأخيرة على بنية النموذج، كان التحدي التالي هو بناء مجموعة بيانات من شأنها تدريب نموذج موثوق به بالفعل. بدأنا بالنظر في كيفية تعامل Open Provence مع هذا الأمر. حيث يستخدم نهجهم مجموعات بيانات ضمان الجودة العامة و LLM صغير لتسمية الجمل ذات الصلة. وهو يتوسع بشكل جيد وسهل التشغيل الآلي، مما جعله خط أساس جيد بالنسبة لنا.

ولكننا سرعان ما واجهنا نفس المشكلة التي وصفوها: إذا طلبت من LLM إخراج تسميات على مستوى الجملة مباشرة، فإن النتائج ليست مستقرة دائمًا. بعض التسميات صحيحة، والبعض الآخر مشكوك فيه، ومن الصعب تنظيف الأمور بعد ذلك. لم تكن التسمية التوضيحية اليدوية بالكامل خيارًا متاحًا أيضًا - كنا بحاجة إلى بيانات أكثر بكثير مما يمكننا تصنيفه يدويًا.

ولتحسين الاستقرار دون التضحية بقابلية التوسع، أجرينا تغييرًا واحدًا: يجب أن توفر LLM مقتطفًا منطقيًا قصيرًا لكل تسمية تقوم بإخراجها. يتضمن كل مثال تدريبي الاستعلام، والمستند، وامتدادات الجملة، وشرحًا موجزًا لسبب كون الجملة ذات صلة أو غير ذات صلة. هذا التعديل البسيط جعل التعليقات التوضيحية أكثر اتساقًا وأعطانا شيئًا ملموسًا للرجوع إليه عند التحقق من صحة مجموعة البيانات أو تصحيحها.

وقد تبين أن تضمين التعليل كان ذا قيمة مدهشة:

  • جودة تعليقات توضيحية أعلى: تعمل كتابة التعليلات التوضيحية كتدقيق ذاتي، مما يقلل من التسميات العشوائية أو غير المتسقة.

  • إمكانية ملاحظة أفضل: يمكننا أن نرى سبب اختيار الجملة بدلاً من التعامل مع التسمية كصندوق أسود.

  • تصحيح أسهل: عندما يبدو شيء ما خاطئًا، يسهّل المنطق تحديد ما إذا كانت المشكلة في الموجه أو المجال أو منطق التعليق التوضيحي.

  • بيانات قابلة لإعادة الاستخدام: حتى إذا قمنا بالتبديل إلى نموذج تصنيف مختلف في المستقبل، تظل آثار الاستدلال مفيدة لإعادة التصنيف أو التدقيق.

يبدو سير عمل التسمية التوضيحية على النحو التالي:

Qwen3 8B للتعليق التوضيحي

بالنسبة للتعليق التوضيحي، اخترنا Qwen3 8B لأنه يدعم أصلاً "وضع التفكير" عبر المخرجات، مما يسهل كثيرًا استخراج آثار استدلال متسقة. لم تعطنا النماذج الأصغر حجمًا تسميات مستقرة، وكانت النماذج الأكبر حجمًا أبطأ ومكلفة بشكل غير ضروري لهذا النوع من خطوط الأنابيب. حقق Qwen3 8B التوازن الصحيح بين الجودة والسرعة والتكلفة.

قمنا بتشغيل جميع التعليقات التوضيحية باستخدام خدمة vLLM محلية بدلاً من واجهات برمجة التطبيقات السحابية. وقد منحنا ذلك إنتاجية عالية، وأداءً يمكن التنبؤ به، وتكلفة أقل بكثير - أي مقايضة وقت وحدة معالجة الرسومات مقابل رسوم رمز واجهة برمجة التطبيقات، وهي الصفقة الأفضل عند توليد ملايين العينات.

مقياس مجموعة البيانات

إجمالاً، قمنا بإنشاء أكثر من 5 ملايين عينة تدريب ثنائية اللغة، مقسمة بالتساوي تقريباً بين اللغتين الإنجليزية والصينية.

  • مصادر اللغة الإنجليزية: MS MARCO، الأسئلة الطبيعية، GooAQ

  • المصادر الصينية: DuReader، ويكيبيديا الصينية، mmarco_chinese

يأتي جزء من مجموعة البيانات من إعادة شرح البيانات الحالية التي تستخدمها مشاريع مثل Open Provence. أما الباقي فقد تم إنشاؤه من المتون الخام عن طريق إنشاء أزواج من الاستعلام والسياق أولاً ثم تصنيفها باستخدام خط الأنابيب القائم على الاستدلال.

جميع بيانات التدريب المشروحة متاحة أيضًا على HuggingFace لتطوير المجتمع ومرجع التدريب: مجموعات بيانات زيليز

طريقة التدريب

بمجرد أن أصبحت بنية النموذج ومجموعة البيانات جاهزة، قمنا بتدريب النموذج على وحدات معالجة الرسوميات 8×A100 لثلاث حقب، وهو ما استغرق حوالي 9 ساعات من البداية إلى النهاية.

ملاحظة: استهدف التدريب رأس التقليم فقط، وهو المسؤول عن مهمة التظليل الدلالي. لم نقم بتدريب رأس إعادة التصنيف، نظرًا لأن التركيز فقط على هدف التقليم أسفر عن نتائج أفضل لتسجيل الصلة على مستوى الجملة.

دراسة حالة واقعية

لا تروي المعايير القياسية سوى جزء من القصة، لذا إليك مثال حقيقي يوضح كيف يتصرف النموذج في حالة شائعة شائعة: عندما يحتوي النص المسترجع على الإجابة الصحيحة ومشتت انتباه مغرٍ للغاية.

استعلام: من كتب رواية "قتل غزال مقدس"؟

السياق (5 جمل):

1\. The Killing of a Sacred Deer is a 2017 psychological horror film directed by Yorgos Lanthimos,

with a screenplay by Lanthimos and Efthymis Filippou.

2. The film stars Colin Farrell, Nicole Kidman, Barry Keoghan, Raffey Cassidy,

Sunny Suljic, Alicia Silverstone, and Bill Camp.

3. The story is based on the ancient Greek playwright Euripides’ play Iphigenia in Aulis.

4. The film tells the story of a cardiac surgeon (Farrell) who secretly

befriends a teenager (Keoghan) connected to his past.

5. He introduces the boy to his family, who then mysteriously fall ill.

الإجابة الصحيحة: الجملة 1 (تنص صراحةً على "سيناريو لانثيموس وإفثيميس فيليبو")

يحتوي هذا المثال على فخ: تذكر الجملة 3 أن "يوريبيدس" كتب المسرحية الأصلية. لكن السؤال يسأل "من كتب فيلم قتل غزال مقدس"، ويجب أن تكون الإجابة هي كاتب سيناريو الفيلم، وليس الكاتب المسرحي اليوناني الذي يعود تاريخه إلى آلاف السنين.

نتائج النموذج

النموذجأوجد الإجابة الصحيحة؟التنبؤ
نموذجناالجمل المختارة 1 (الصحيحة) و 3
XProvence v1اخترت الجملة 3 فقط، وأخطأت الإجابة الصحيحة
XProvence v2اخترت الجملة 3 فقط، وأخطأت الإجابة الصحيحة

مقارنة نقاط الجملة الرئيسية:

الجملةنموذجناXProvence v1XProvence v2
الجملة 1 (سيناريو فيلم، إجابة صحيحة)0.9150.1330.081
الجملة 3 (المسرحية الأصلية، الإجابة الصحيحة)0.7190.9470.802

نماذج XProvence:

  • ينجذب بشدة إلى "يوريبيدس" و"المسرحية"، ويعطي الجملة 3 درجات شبه مثالية (0.947 و0.802)

  • يتجاهل تمامًا الإجابة الفعلية (الجملة 1)، مع إعطاء درجات منخفضة للغاية (0.133 و0.081)

  • حتى عند خفض الحد الأدنى من 0.5 إلى 0.2، لا يزال النموذج غير قادر على العثور على الإجابة الصحيحة

نموذجنا:

  • يعطي بشكل صحيح الجملة 1 أعلى الدرجات (0.915)

  • لا يزال يمنح الجملة 3 بعض الأهمية (0.719) لأنها مرتبطة بالخلفية

  • يفصل بوضوح بين الجملتين بهامش 0.2 تقريبًا

يوضح هذا المثال نقطة القوة الأساسية للنموذج: فهم مقصد الاستعلام بدلاً من مجرد مطابقة الكلمات الرئيسية على مستوى السطح. في هذا السياق، تشير عبارة "من كتب قتل غزال مقدس" إلى الفيلم، وليس المسرحية اليونانية القديمة. يلتقط نموذجنا ذلك، بينما يتشتت الآخرون بسبب الإشارات المعجمية القوية.

جرّبه وأخبرنا برأيك

نموذج zilliz/semantic-highlight-bilingual-v1 الخاص بنا مفتوح المصدر بالكامل الآن تحت رخصة MIT وجاهز للاستخدام في الإنتاج. يمكنك توصيله إلى خط أنابيب RAG الخاص بك، أو ضبطه لمجالك الخاص، أو بناء أدوات جديدة فوقه. نرحب أيضًا بالمساهمات والتعليقات من المجتمع.

التظليل الدلالي متوفر في سحابة ميلفوس وزيليز

كما أن التظليل الدلالي مدمج مباشرةً في Milvus و Zilliz Cloud (Milvus المدارة بالكامل)، مما يمنح المستخدمين رؤية واضحة لسبب استرجاع كل مستند. بدلاً من مسح أجزاء كاملة، يمكنك أن ترى على الفور الجمل المحددة التي تتعلق باستعلامك - حتى عندما لا تتطابق الصياغة تمامًا. وهذا يجعل الاسترجاع أسهل في الفهم وأسرع في التصحيح. بالنسبة لخطوط أنابيب RAG، فإنه يوضح أيضًا ما يُتوقع أن يركز عليه برنامج LLM النهائي، مما يساعد في التصميم الفوري وفحوصات الجودة.

جرّب تسليط الضوء الدلالي في سحابة Zilliz المدارة بالكامل مجانًا

نود أن نسمع كيف يعمل معك - تقارير الأخطاء أو أفكار التحسين أو أي شيء تكتشفه أثناء دمجه في سير عملك.

إذا كنت ترغب في التحدث عن أي شيء بمزيد من التفصيل، لا تتردد في الانضمام إلى قناة Discord الخاصة بنا أو حجز جلسة ساعات عمل Milvus المكتبية لمدة 20 دقيقة. يسعدنا دائمًا التحدث مع البناة الآخرين وتبادل الملاحظات.

شكر وتقدير

يعتمد هذا العمل على الكثير من الأفكار الرائعة والمساهمات مفتوحة المصدر، ونريد أن نسلط الضوء على المشاريع التي جعلت هذا النموذج ممكنًا.

  • قدّمتبروفانس إطارًا نظيفًا وعمليًا لتشذيب السياق باستخدام نماذج تشفير خفيفة الوزن.

  • قدممشروع بروفانس المفتوح المصدر كودًا قويًا ومصمّمًا بشكل جيد - خطوط أنابيب التدريب، ومعالجة البيانات، ورؤوس النماذج - تحت رخصة متساهلة. لقد أعطانا نقطة انطلاق قوية للتجريب.

على رأس هذا الأساس، أضفنا العديد من المساهمات الخاصة بنا:

  • استخدام منطق LLM لتوليد تسميات ذات صلة عالية الجودة

  • إنشاء ما يقرب من 5 ملايين عينة تدريب ثنائية اللغة تتماشى مع أعباء عمل RAG الحقيقية

  • اختيار نموذج أساسي أكثر ملاءمةً لتسجيل أهمية السياق الطويل(BGE-M3 Reranker v2)

  • تدريب رأس التقليم فقط لتخصيص النموذج للتمييز الدلالي

نحن ممتنون لفريقي Provence وOpen Provence لنشر عملهما بشكل علني. لقد سرّعت مساهماتهم بشكل كبير من تطورنا وجعلت هذا المشروع ممكنًا.

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    استمر في القراءة