🚀 جرب Zilliz Cloud، الـ Milvus المدارة بالكامل، مجاناً — تجربة أداء أسرع بـ 10 أضعاف! جرب الآن>>

milvus-logo
LFAI
  • Home
  • Blog
  • البحث الدلالي متعدد الوسائط مع الصور والنصوص

البحث الدلالي متعدد الوسائط مع الصور والنصوص

  • Engineering
February 03, 2025
Stefan Webb

نحن كبشر، نفسر العالم من خلال حواسنا. فنحن نسمع الأصوات ونرى الصور والفيديو والنصوص، وغالباً ما تكون في طبقات فوق بعضها البعض. نحن نفهم العالم من خلال هذه الطرائق المتعددة والعلاقة بينها. ولكي يضاهي الذكاء الاصطناعي القدرات البشرية أو يتجاوزها حقًا، يجب أن يطور هذه القدرة نفسها لفهم العالم من خلال عدسات متعددة في وقت واحد.

في هذا المنشور والفيديو المصاحب له (أعلاه) والمذكرة، سنعرض الإنجازات الأخيرة في النماذج التي يمكنها معالجة كل من النصوص والصور معاً. سنقوم بتوضيح ذلك من خلال بناء تطبيق بحث دلالي يتجاوز مجرد مطابقة الكلمات المفتاحية - فهو يفهم العلاقة بين ما يطلبه المستخدمون والمحتوى المرئي الذي يبحثون عنه.

ما يجعل هذا المشروع مثيرًا بشكل خاص هو أنه مبني بالكامل باستخدام أدوات مفتوحة المصدر: قاعدة بيانات Milvus vector، ومكتبات التعلم الآلي الخاصة ب HuggingFace، ومجموعة بيانات من مراجعات عملاء Amazon. من اللافت للنظر أنه قبل عقد من الزمان فقط، كان بناء شيء من هذا القبيل يتطلب موارد ملكية كبيرة. أما اليوم، فإن هذه المكونات القوية متاحة مجاناً ويمكن لأي شخص لديه فضول للتجربة أن يجمعها بطرق مبتكرة.

تطبيق البحث متعدد الوسائط الخاص بنا هو من نوع الاسترجاع وإعادة الترتيب. إذا كنت على دراية بنوع الاسترجاع والتوليد المعزز (RAG) فهو مشابه جدًا، إلا أن الناتج النهائي هو قائمة من الصور التي أعيد تصنيفها بواسطة نموذج رؤية لغوية كبيرة (LLVM). يحتوي استعلام البحث الخاص بالمستخدم على كل من النص والصورة، والهدف هو مجموعة من الصور المفهرسة في قاعدة بيانات متجهة. تحتوي البنية على ثلاث خطوات - الفهرسة، والاسترجاع، وإعادة الترتيب (أقرب إلى "التوليد") - والتي نلخصها بدورها.

الفهرسة

يجب أن يحتوي تطبيق البحث لدينا على شيء للبحث. في حالتنا، نستخدم مجموعة فرعية صغيرة من مجموعة بيانات "مراجعات أمازون 2023"، والتي تحتوي على نصوص وصور من مراجعات عملاء أمازون في جميع أنواع المنتجات. يمكنك أن تتخيل أن بحثاً دلالياً كهذا الذي نقوم ببنائه سيكون إضافة مفيدة لموقع إلكتروني للتجارة الإلكترونية. نحن نستخدم 900 صورة ونتجاهل النص، على الرغم من ملاحظة أن هذا الدفتر يمكن أن يتوسع إلى حجم الإنتاج مع قاعدة البيانات الصحيحة وعمليات نشر الاستدلال.

أول جزء من "السحر" في خط الأنابيب لدينا هو اختيار نموذج التضمين. نحن نستخدم نموذجًا متعدد الوسائط تم تطويره مؤخرًا يسمى Visualized BGE قادر على تضمين النص والصور معًا، أو كل منهما على حدة، في نفس المساحة بنموذج واحد حيث تكون النقاط المتقاربة متشابهة دلاليًا. تم تطوير نماذج أخرى من هذا القبيل مؤخرًا، على سبيل المثال MagicLens.

يوضّح الشكل أعلاه: التضمين لـ [صورة لأسد من الجانب] بالإضافة إلى النص "منظر أمامي لهذا"، قريب من التضمين لـ [صورة أسد من الأمام] بدون نص. يُستخدم نفس النموذج لكل من مدخلات النص بالإضافة إلى الصورة ومدخلات الصورة فقط (وكذلك مدخلات النص فقط). بهذه الطريقة، يكون النموذج قادرًا على فهم نية المستخدم في كيفية ارتباط نص الاستعلام بصورة الاستعلام.

نقوم بتضمين صور منتجاتنا الـ 900 بدون نص مطابق ونخزن التضمينات في قاعدة بيانات متجهة باستخدام Milvus.

الاسترجاع

الآن بعد أن تم بناء قاعدة البيانات الخاصة بنا، يمكننا تقديم استعلام المستخدم. تخيل أن مستخدمًا يأتي مع الاستعلام: "حافظة هاتف مع هذا" بالإضافة إلى [صورة نمر]. أي أنه يبحث عن أغطية هواتف تحمل طبعة جلد النمر.

لاحظ أن نص استعلام المستخدم يقول "هذا" بدلاً من "جلد نمر". يجب أن يكون نموذج التضمين الخاص بنا قادرًا على ربط كلمة "هذا" بما تشير إليه، وهو إنجاز مثير للإعجاب نظرًا لأن التكرار السابق للنماذج لم يكن قادرًا على التعامل مع مثل هذه التعليمات المفتوحة. تقدم ورقة MagicLens أمثلة أخرى.

نقوم بتضمين نص الاستعلام والصورة معًا وإجراء بحث تشابه لقاعدة بيانات المتجهات، وإرجاع أفضل تسع نتائج. تظهر النتائج في الشكل أعلاه، إلى جانب صورة الاستعلام عن النمر. يبدو أن أعلى نتيجة ليست هي الأكثر صلة بالاستعلام. يبدو أن النتيجة السابعة هي الأكثر صلة بالموضوع، وهي عبارة عن غطاء هاتف مطبوع عليه جلد نمر.

التوليد

يبدو أن بحثنا قد فشل في أن النتيجة الأولى ليست الأكثر صلة بالموضوع. ومع ذلك، يمكننا إصلاح ذلك بخطوة إعادة الترتيب. قد تكون على دراية بإعادة ترتيب العناصر المسترجعة كخطوة مهمة في العديد من خطوط أنابيب RAG. نستخدم Phi-3 Vision كنموذج لإعادة التصنيف.

نطلب أولًا من LLVM إنشاء شرح لصورة الاستعلام. يقوم LLVM بإخراج:

"تُظهر الصورة لقطة مقرّبة لوجه نمر مع التركيز على فرائه المرقط وعينيه الخضراوين".

ثم نقوم بعد ذلك بتغذية هذا التعليق، وصورة واحدة مع النتائج التسعة وصورة الاستعلام، وننشئ مطالبة نصية تطلب من النموذج إعادة ترتيب النتائج، مع إعطاء الإجابة كقائمة وتقديم سبب لاختيار أفضل تطابق.

يظهر الناتج في الشكل أعلاه - العنصر الأكثر ملاءمة الآن هو العنصر الأكثر ملاءمة هو الأنسب - والسبب المعطى هو

"العنصر الأكثر ملاءمة هو العنصر الذي يحمل سمة النمر، والذي يتطابق مع تعليمات استعلام المستخدم عن حافظة هاتف ذات سمة مماثلة."

تمكّنت أداة إعادة تصنيف LLVM الخاصة بنا من إجراء فهم عبر الصور والنصوص، وتحسين ملاءمة نتائج البحث. إحدى القطع الأثرية المثيرة للاهتمام هي أن أداة إعادة التصنيف أعطت ثماني نتائج فقط وأسقطت واحدة فقط، مما يسلط الضوء على الحاجة إلى حواجز حماية ومخرجات منظمة.

الملخص

في هذا المنشور والفيديو والمذكرة المصاحبة له، قمنا ببناء تطبيق للبحث الدلالي متعدد الوسائط عبر النصوص والصور. كان نموذج التضمين قادرًا على تضمين النص والصور معًا أو بشكل منفصل في نفس المساحة، وكان نموذج الأساس قادرًا على إدخال النص والصورة أثناء توليد النص استجابةً لذلك. والأهم من ذلك أن نموذج التضمين كان قادرًا على ربط قصد المستخدم من التعليمات المفتوحة بصورة الاستعلام، وبهذه الطريقة تحديد كيفية رغبة المستخدم في أن ترتبط النتائج بالصورة المدخلة.

هذا مجرد لمحة عما سيأتي في المستقبل القريب. سوف نرى العديد من تطبيقات البحث متعدد الوسائط، والفهم والاستدلال متعدد الوسائط، وما إلى ذلك عبر طرائق متنوعة: الصورة، والفيديو، والصوت، والجزيئات، والشبكات الاجتماعية، والبيانات المجدولة، والسلاسل الزمنية، والإمكانات لا حدود لها.

وفي صميم هذه الأنظمة توجد قاعدة بيانات متجهة تحمل "الذاكرة" الخارجية للنظام. يعد Milvus خيارًا ممتازًا لهذا الغرض. فهو مفتوح المصدر، ومميز بالكامل (انظر هذه المقالة عن البحث عن النص الكامل في Milvus 2.5) ويتوسع بكفاءة إلى مليارات المتجهات مع حركة مرور على نطاق الويب وزمن انتقال أقل من 100 مللي ثانية. تعرّف على المزيد في مستندات Milvus، وانضم إلى مجتمع Discord الخاص بنا، ونأمل أن نراك في لقاء البيانات غير المهيكلة القادم. حتى ذلك الحين!

المصادر

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started

Like the article? Spread the word

استمر في القراءة