بناء تجربة بحث حسب الصورة في التسوق باستخدام VOVA وMilvus
الانتقال إلى:
- بناء تجربة البحث عن طريق البحث بالصور في التسوق باستخدام VOVA و Milvus
- كيف يعمل البحث بالصور- عملية نظام البحث عن طريق وظيفة البحث بالصور في VOVA.
- اكتشاف الهدف باستخدام نموذج YOLO- بنية شبكة YOLO.
- استخراج متجه ميزة الصورة باستخدام ResNet- بنية شبكة ResNet.
- البحث بالتشابه المتجهي المدعوم من ميلفوس- بنية ميشاردز في ميلفوس.
- أداة التسوق عن طريق الصور في VOVA- لقطات شاشة لأداة التسوق عن طريق الصور في VOVA.
- المرجع
ارتفع التسوق عبر الإنترنت في عام 2020، بزيادة 44% في جزء كبير منه بسبب جائحة فيروس كورونا. نظرًا لسعي الناس إلى التباعد الاجتماعي وتجنب الاتصال بالغرباء، أصبح التسليم بدون اتصال خيارًا مرغوبًا بشكل لا يصدق للعديد من المستهلكين. أدت هذه الشعبية أيضاً إلى شراء الناس مجموعة أكبر من السلع عبر الإنترنت، بما في ذلك السلع المتخصصة التي قد يصعب وصفها باستخدام البحث التقليدي بالكلمات المفتاحية.
ولمساعدة المستخدمين على التغلب على قيود الاستعلامات القائمة على الكلمات المفتاحية، يمكن للشركات إنشاء محركات بحث بالصور تسمح للمستخدمين باستخدام الصور بدلاً من الكلمات للبحث. لا يسمح ذلك للمستخدمين بالعثور على العناصر التي يصعب وصفها فحسب، بل يساعدهم أيضًا على التسوق للأشياء التي يواجهونها في الحياة الواقعية. تساعد هذه الوظيفة في بناء تجربة مستخدم فريدة من نوعها وتوفر راحة عامة يقدرها العملاء.
VOVA هي منصة ناشئة للتجارة الإلكترونية تركز على القدرة على تحمل التكاليف وتقديم تجربة تسوق إيجابية لمستخدميها، مع قوائم تغطي ملايين المنتجات وتدعم 20 لغة و35 عملة رئيسية. ولتعزيز تجربة التسوق لمستخدميها، استخدمت الشركة شركة Milvus لبناء وظيفة البحث عن الصور في منصة التجارة الإلكترونية الخاصة بها. يستكشف المقال كيف نجحت VOVA في بناء محرك بحث عن الصور باستخدام Milvus.
كيف يعمل البحث عن الصور؟
يبحث نظام التسوق عن طريق الصور في VOVA في مخزون الشركة عن صور المنتجات المشابهة للصور التي يقوم المستخدم بتحميلها. يوضح الرسم البياني التالي مرحلتي عملية النظام، مرحلة استيراد البيانات (باللون الأزرق) ومرحلة الاستعلام (باللون البرتقالي):
- استخدام نموذج YOLO للكشف عن الأهداف من الصور التي تم تحميلها;
- استخدام ResNet لاستخراج متجهات السمات من الأهداف المكتشفة;
- استخدام ميلفوس للبحث عن تشابه المتجهات.
Vova-1.png
اكتشاف الأهداف باستخدام نموذج YOLO
تدعم تطبيقات VOVA للأجهزة المحمولة على نظامي Android و iOS حاليًا البحث عن الصور. تستخدم الشركة نظاماً متقدماً ومتطوراً للكشف عن الأهداف في الوقت الحقيقي يسمى YOLO (أنت تنظر مرة واحدة فقط) لاكتشاف الأهداف في الصور التي يرفعها المستخدم. نموذج YOLO هو حالياً في نسخته الخامسة.
YOLO هو نموذج من مرحلة واحدة، باستخدام شبكة عصبية تلافيفية واحدة فقط (CNN) للتنبؤ بفئات ومواقع الأهداف المختلفة. وهو صغير الحجم ومضغوط ومناسب تماماً للاستخدام المحمول.
يستخدم YOLO الطبقات التلافيفية لاستخراج الميزات والطبقات المتصلة بالكامل للحصول على القيم المتوقعة. وبالاستلهام من نموذج GooLeNet، تشتمل شبكة YOLO على 24 طبقة تلافيفية وطبقتين متصلتين بالكامل.
وكما يظهر في الرسم التوضيحي التالي، يتم تحويل صورة مُدخَلة مقاس 448 × 448 بواسطة عدد من الطبقات التلافيفية وطبقات التجميع إلى موتر ذي 7 × 7 × 1024 بُعدًا (كما هو موضح في المكعب الثالث إلى الأخير أدناه)، ثم يتم تحويلها بواسطة طبقتين متصلتين بالكامل إلى مخرج موتر ذي 7 × 7 × 30 بُعدًا.
المخرجات المتوقعة من YOLO P عبارة عن موتر ثنائي الأبعاد، ويكون شكله [دفعة،7 × 7 × 7 × 30]. باستخدام التقطيع، P[:,0:0:7×7×20] هو احتمال الفئة، P[:,7×7×7×20:7×7×(20+2)] هو الثقة، و P[:,7×7×(20+2)]:] هو النتيجة المتوقعة للمربع المحدود.

استخراج متجه ميزة الصورة باستخدام ResNet
اعتمدت VOVA نموذج الشبكة العصبية المتبقية (ResNet) لاستخراج متجهات السمات من مكتبة صور المنتج الشاملة والصور التي قام المستخدم بتحميلها. تعتبر شبكة ResNet محدودة لأنه كلما زاد عمق شبكة التعلم، تقل دقة الشبكة. تُصوّر الصورة أدناه شبكة ResNet التي تُشغّل نموذج VGG19 (وهو متغير من نموذج VGG) المعدّل ليشمل وحدة متبقية من خلال آلية الدائرة القصيرة. تم اقتراح نموذج VGG في عام 2014 ويتضمن 14 طبقة فقط، في حين ظهرت شبكة ResNet بعد ذلك بعام ويمكن أن يصل عدد طبقاتها إلى 152 طبقة.
من السهل تعديل بنية ResNet وتوسيع نطاقها. من خلال تغيير عدد القنوات في الكتلة وعدد الكتل المكدسة، يمكن تعديل عرض الشبكة وعمقها بسهولة للحصول على شبكات ذات قدرات تعبيرية مختلفة. هذا يحل بشكل فعال تأثير انحطاط الشبكة، حيث تنخفض الدقة مع زيادة عمق التعلم. مع وجود بيانات تدريب كافية، يمكن الحصول على نموذج مع تحسين الأداء التعبيري مع تعميق الشبكة تدريجيًا. من خلال التدريب على النموذج، يتم استخراج الميزات لكل صورة وتحويلها إلى متجهات عائمة ذات 256 بُعدًا.
vova-3.png
بحث تشابه المتجهات المدعوم من ميلفوس
تشتمل قاعدة بيانات VOVA لصور المنتجات على 30 مليون صورة وهي تنمو بسرعة. لاسترداد صور المنتجات الأكثر تشابهًا بسرعة من مجموعة البيانات الضخمة هذه، يتم استخدام Milvus لإجراء بحث التشابه المتجه. وبفضل عدد من التحسينات، يوفر Milvus نهجًا سريعًا ومبسطًا لإدارة البيانات المتجهة وبناء تطبيقات التعلم الآلي. يوفر Milvus التكامل مع مكتبات الفهارس الشائعة (مثل Faiss و Annoy)، ويدعم أنواعًا متعددة من الفهارس ومقاييس المسافة، ولديه حزم SDK بلغات متعددة، ويوفر واجهات برمجة تطبيقات غنية لإدارة بيانات المتجهات.
يمكن لـ Milvus إجراء بحث تشابه على مجموعات بيانات تريليون متجه في أجزاء من الثانية، مع وقت استعلام أقل من 1.5 ثانية عندما يكون nq = 1 ومتوسط وقت استعلام دفعي أقل من 0.08 ثانية. ولإنشاء محرك البحث عن الصور الخاص بها، أشارت VOVA إلى تصميم Mishards، وهو حل البرمجيات الوسيطة للتجزئة من Milvus (انظر الرسم البياني أدناه للاطلاع على تصميم النظام الخاص به)، لتنفيذ مجموعة خوادم متاحة بشكل كبير. ومن خلال الاستفادة من قابلية التوسع الأفقي لمجموعة خوادم Milvus، تم تلبية متطلبات المشروع للحصول على أداء استعلام عالٍ على مجموعات البيانات الضخمة.
vova-4.png
أداة تسوق VOVA حسب الصورة
تُظهر لقطات الشاشة أدناه أداة تسوق VOVA للبحث عن طريق الصور على تطبيق الشركة على نظام أندرويد.
vova-5.png
مع تزايد عدد المستخدمين الذين يبحثون عن المنتجات ويرفعون الصور، ستستمر VOVA في تحسين النماذج التي تشغل النظام. بالإضافة إلى ذلك، ستقوم الشركة بتضمين وظائف جديدة لـ Milvus يمكنها تعزيز تجربة التسوق عبر الإنترنت لمستخدميها.
المرجع
يولو
https://arxiv.org/pdf/1506.02640.pdf
https://arxiv.org/pdf/1612.08242.pdf
ريس نت
https://arxiv.org/abs/1512.03385
ميلفوس
https://milvus.io/docs
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word