🚀 جرب Zilliz Cloud، الـ Milvus المدارة بالكامل، مجاناً — تجربة أداء أسرع بـ 10 أضعاف! جرب الآن>>

milvus-logo
LFAI
  • Home
  • Blog
  • التوصية بالمحتوى باستخدام البحث الدلالي المتجه

التوصية بالمحتوى باستخدام البحث الدلالي المتجه

  • Scenarios
June 08, 2021
milvus

مع حصول 71% من الأمريكيين على توصيات الأخبار من منصات التواصل الاجتماعي، أصبح المحتوى المخصص سريعًا هو الطريقة التي يتم بها اكتشاف وسائل الإعلام الجديدة. وسواء كان الأشخاص يبحثون عن موضوعات محددة، أو يتفاعلون مع المحتوى الموصى به، يتم تحسين كل ما يراه المستخدمون بواسطة الخوارزميات لتحسين معدلات النقر إلى الظهور (CTR) والتفاعل والملاءمة. Sohu هي مجموعة صينية مدرجة في بورصة ناسداك للوسائط والفيديو والبحث والألعاب عبر الإنترنت. وقد استفادت من Milvus، وهي قاعدة بيانات متجهة مفتوحة المصدر أنشأتها شركة Zilliz، لبناء محرك بحث دلالي متجه داخل تطبيق الأخبار الخاص بها. تشرح هذه المقالة كيف استخدمت الشركة ملفات تعريف المستخدمين لضبط توصيات المحتوى المخصص بمرور الوقت، وتحسين تجربة المستخدم ومشاركته.

يتم إنشاء ملفات تعريف مستخدمي Sohu News من سجل التصفح وتعديلها أثناء بحث المستخدمين عن المحتوى الإخباري وتفاعلهم معه. يستخدم نظام التوصية في Sohu البحث الدلالي المتجه للعثور على المقالات الإخبارية ذات الصلة. يعمل النظام من خلال تحديد مجموعة من العلامات التي من المتوقع أن تكون ذات أهمية لكل مستخدم بناءً على سجل التصفح. ثم يبحث بسرعة عن المقالات ذات الصلة ويصنف النتائج حسب الشعبية (تقاس بمتوسط نسبة النقر إلى الظهور)، قبل تقديمها للمستخدمين.

وتنشر صحيفة نيويورك تايمز وحدها 230 قطعة من المحتوى يوميًا، وهو ما يقدم لمحة عن حجم المحتوى الجديد الذي يجب أن يكون نظام التوصيات الفعال قادرًا على معالجته. ويتطلب استيعاب كميات كبيرة من الأخبار بحثًا عن التشابه في أجزاء من الثانية ومطابقة العلامات مع المحتوى الجديد كل ساعة. اختارت Sohu نظام Milvus لأنه يعالج مجموعات البيانات الضخمة بكفاءة ودقة، ويقلل من استخدام الذاكرة أثناء البحث، ويدعم عمليات النشر عالية الأداء.

فهم سير عمل نظام التوصية بالأخبار

تعتمد توصية المحتوى المستندة إلى متجه البحث الدلالي في Sohu على نموذج دلالي منظم عميق (DSSM)، والذي يستخدم شبكتين عصبيتين لتمثيل استعلامات المستخدم والمقالات الإخبارية كمتجهات. يقوم النموذج بحساب التشابه في جيب التمام بين المتجهين الدلاليين، ثم يتم إرسال مجموعة الأخبار الأكثر تشابهًا إلى مجموعة الأخبار المرشحة للتوصية. بعد ذلك، يتم ترتيب المقالات الإخبارية استنادًا إلى نسبة النقر إلى الظهور المقدرة، ويتم عرض المقالات ذات أعلى نسبة نقر إلى الظهور المتوقعة على المستخدمين.

ترميز المقالات الإخبارية إلى متجهات دلالية باستخدام خدمة BERT كخدمة

لترميز المقالات الإخبارية إلى متجهات دلالية، يستخدم النظام أداة BERT كخدمة. إذا تجاوز عدد كلمات أي جزء من المحتوى 512 كلمة أثناء استخدام هذا النموذج، يحدث فقدان للمعلومات أثناء عملية التضمين. للمساعدة في التغلب على ذلك، يقوم النظام أولاً باستخراج ملخص وترميزه في متجه دلالي مكون من 768 بُعدًا. بعد ذلك يتم استخراج الموضوعين الأكثر صلة من كل مقالة إخبارية، ويتم تحديد متجهات الموضوعات المقابلة المدربة مسبقًا (200 بُعد) بناءً على معرف الموضوع. بعد ذلك يتم دمج متجهات الموضوعات في المتجه الدلالي ذي ال 768 بُعدًا المستخرج من ملخص المقالة، مما يشكل متجهًا دلاليًا مكونًا 968 بُعدًا.

يأتي المحتوى الجديد بشكل مستمر من خلال كافتا، ويتم تحويله إلى متجهات دلالية قبل إدراجه في قاعدة بيانات ملفوس.

استخراج العلامات المتشابهة دلاليًا من ملفات تعريف المستخدمين باستخدام BERT كخدمة

الشبكة العصبية الأخرى للنموذج هي المتجه الدلالي للمستخدم. يتم استخراج العلامات المتشابهة دلاليًا (على سبيل المثال، فيروس كورونا، وفيروس كورونا، وكوفيد-19، وجائحة، وسلالة جديدة، والالتهاب الرئوي) من ملفات تعريف المستخدمين بناءً على الاهتمامات واستعلامات البحث وسجل التصفح. يتم فرز قائمة العلامات المكتسبة حسب الوزن، ويتم تقسيم أفضل 200 علامة إلى مجموعات دلالية مختلفة. يتم استخدام تباديل العلامات داخل كل مجموعة دلالية لتوليد عبارات علامات جديدة، والتي يتم ترميزها بعد ذلك إلى متجهات دلالية من خلال خدمة BERT-as-service

بالنسبة لكل ملف تعريف مستخدم، تحتوي مجموعات عبارات الوسم على مجموعة مقابلة من الموضوعات التي يتم تمييزها بوزن يشير إلى مستوى اهتمام المستخدم. يتم اختيار أهم موضوعين من بين جميع الموضوعات ذات الصلة وترميزهما بواسطة نموذج التعلم الآلي (ML) ليتم ربطهما في متجه دلالات العلامات المقابلة، مما يشكل متجه دلالات المستخدم 968 بُعدًا. حتى لو قام النظام بتوليد نفس العلامات لمستخدمين مختلفين، فإن الأوزان المختلفة للعلامات والمواضيع المقابلة لها، بالإضافة إلى التباين الواضح بين متجهات المواضيع لكل مستخدم، يضمن أن تكون التوصيات فريدة من نوعها

النظام قادر على تقديم توصيات إخبارية مخصصة من خلال حساب تشابه جيب التمام للمتجهات الدلالية المستخرجة من كل من ملفات تعريف المستخدمين والمقالات الإخبارية.

Sohu01.jpg Sohu01.jpg

حساب متجهات الملف الشخصي الدلالي الجديد للمستخدمين وإدراجها في ميلفوس

يتم احتساب متجهات الملف الشخصي الدلالي للمستخدمين يوميًا، مع معالجة البيانات من فترة ال 24 ساعة السابقة مساء اليوم التالي. يتم إدراج المتجهات في ميلفوس بشكل فردي وتشغيلها من خلال عملية الاستعلام لتقديم نتائج الأخبار ذات الصلة للمستخدمين. محتوى الأخبار بطبيعته موضوعي بطبيعته، مما يتطلب تشغيل عملية حسابية كل ساعة لتوليد موجز أخبار حالي يحتوي على محتوى ذي نسبة نقرات متوقعة عالية وذو صلة بالمستخدمين. كما يتم فرز محتوى الأخبار أيضًا إلى أقسام حسب التاريخ، ويتم التخلص من الأخبار القديمة يوميًا.

تقليل وقت استخراج المتجهات الدلالية من أيام إلى ساعات

يتطلب استرجاع المحتوى باستخدام المتجهات الدلالية تحويل عشرات الملايين من عبارات الوسم إلى متجهات دلالية كل يوم. هذه عملية تستغرق وقتاً طويلاً قد تتطلب أياماً لإكمالها حتى عند تشغيلها على وحدات معالجة الرسومات (GPU)، والتي تعمل على تسريع هذا النوع من العمليات الحسابية. وللتغلب على هذه المشكلة التقنية، يجب تحسين المتجهات الدلالية من التضمين السابق بحيث يتم استرجاع المتجهات الدلالية المقابلة مباشرةً عند ظهور عبارات علامات متشابهة.

يتم تخزين المتجه الدلالي لمجموعة عبارات الوسم الحالية، ويتم ترميز مجموعة جديدة من عبارات الوسم التي يتم إنشاؤها يوميًا في متجهات MinHash. تُستخدم مسافة جاكارد لحساب التشابه بين متجه MinHash لعبارة الوسم الجديدة ومتجه عبارة الوسم المحفوظة. إذا تجاوزت مسافة جاكارد عتبة محددة مسبقًا، يتم اعتبار المجموعتين متشابهتين. إذا تم استيفاء عتبة التشابه، يمكن للعبارات الجديدة الاستفادة من المعلومات الدلالية من التضمينات السابقة. تشير الاختبارات إلى أن مسافة أعلى من 0.8 يجب أن تضمن دقة كافية لمعظم الحالات.

من خلال هذه العملية، يتم تقليل التحويل اليومي لعشرات الملايين من المتجهات المذكورة أعلاه من أيام إلى حوالي ساعتين. على الرغم من أن الطرق الأخرى لتخزين المتجهات الدلالية قد تكون أكثر ملاءمة اعتمادًا على متطلبات المشروع المحددة، إلا أن حساب التشابه بين عبارتين من عبارات العلامات باستخدام مسافة جاكارد في قاعدة بيانات ميلفوس يظل طريقة فعالة ودقيقة في مجموعة واسعة من السيناريوهات.

Sohu02.jpg Sohu02.jpg

التغلب على "الحالات السيئة" لتصنيف النصوص القصيرة

عند تصنيف النصوص الإخبارية، تحتوي المقالات الإخبارية القصيرة على ميزات أقل لاستخراجها من المقالات الطويلة. ولهذا السبب، تفشل خوارزميات التصنيف عندما يتم تشغيل محتوى بأطوال مختلفة من خلال نفس المصنف. يساعد برنامج Milvus في حل هذه المشكلة من خلال البحث عن أجزاء متعددة من معلومات تصنيف النصوص الطويلة ذات الدلالات المتشابهة والنتائج الموثوقة، ثم استخدام آلية تصويت لتعديل تصنيف النصوص القصيرة.

تحديد وحل مشكلة التصنيف الخاطئ للنص القصير

يعد التصنيف الدقيق لكل مقال إخباري أمرًا بالغ الأهمية لتقديم توصيات مفيدة للمحتوى. نظرًا لأن المقالات الإخبارية القصيرة تحتوي على عدد أقل من الميزات، فإن تطبيق المصنف نفسه على الأخبار ذات الأطوال المختلفة يؤدي إلى معدل خطأ أعلى لتصنيف النصوص القصيرة. يعد التصنيف البشري بطيئًا للغاية وغير دقيق لهذه المهمة، لذلك يتم استخدام BERT كخدمة وMilvus لتحديد النصوص القصيرة التي تم تصنيفها بشكل خاطئ على دفعات، وإعادة تصنيفها بشكل صحيح، ثم استخدام مجموعات من البيانات كمجموعة من البيانات للتدريب على مواجهة هذه المشكلة.

يُستخدم برنامج BERT-as-service لترميز عدد إجمالي من خمسة ملايين مقال إخباري طويل بدرجة تصنيف أكبر من 0.9 في متجهات دلالية. بعد إدراج المقالات النصية الطويلة في "ميلفوس"، يتم ترميز الأخبار النصية القصيرة إلى متجهات دلالية. يتم استخدام كل متجه دلالي للأخبار القصيرة للاستعلام عن قاعدة بيانات ميلفوس والحصول على أفضل 20 مقالة إخبارية طويلة ذات أعلى تشابه في جيب التمام مع الأخبار القصيرة المستهدفة. إذا ظهر أن 18 من أفضل 20 خبرًا طويلًا متشابهًا دلاليًا من بين أفضل 20 خبرًا طويلًا متشابهًا دلاليًا في نفس التصنيف ويختلف عن تصنيف الأخبار القصيرة المستهدفة فإن تصنيف الأخبار القصيرة يعتبر غير صحيح ويجب تعديله ليتماشى مع الـ 18 خبرًا طويلًا.

تقوم هذه العملية بتحديد وتصحيح التصنيفات غير الدقيقة للأخبار القصيرة بسرعة. تُظهر إحصائيات أخذ العينات العشوائية أنه بعد تصحيح تصنيفات النصوص القصيرة، تتجاوز الدقة الإجمالية لتصنيف النص 95%. من خلال الاستفادة من تصنيف النصوص الطويلة ذات الثقة العالية لتصحيح تصنيف النصوص القصيرة، يتم تصحيح غالبية حالات التصنيف السيئة في فترة زمنية قصيرة. يوفر هذا أيضًا مجموعة جيدة لتدريب مصنف النصوص القصيرة.

!"[Sohu03.jpg] (https://assets.zilliz.com/Sohu03_a43074cf5f.jpg "مخطط انسيابي لاكتشاف "الحالات السيئة" لتصنيف النصوص القصيرة.")

يمكن لـ Milvus تشغيل التوصية بالمحتوى الإخباري في الوقت الحقيقي والمزيد

حسّنت Milvus بشكل كبير من أداء نظام التوصية بالأخبار في الوقت الفعلي لنظام التوصية بالأخبار في Sohu، وعززت أيضًا كفاءة تحديد النصوص القصيرة التي تم تصنيفها بشكل خاطئ. إذا كنت مهتمًا بمعرفة المزيد عن ميلفوس وتطبيقاته المختلفة:

  • اقرأ مدونتنا.
  • تفاعل مع مجتمعنا مفتوح المصدر على Slack.
  • استخدم أو ساهم في قاعدة بيانات المتجهات الأكثر شعبية في العالم على GitHub.
  • اختبر تطبيقات الذكاء الاصطناعي وانشرها بسرعة من خلال معسكرنا التدريبي الجديد.

Like the article? Spread the word

استمر في القراءة