🚀 جرب Zilliz Cloud، الـ Milvus المدارة بالكامل، مجاناً — تجربة أداء أسرع بـ 10 أضعاف! جرب الآن>>

milvus-logo
LFAI
  • Home
  • Blog
  • بفضل شركة Milvus، يمكن لأي شخص إنشاء قاعدة بيانات متجهات لأكثر من مليار صورة

بفضل شركة Milvus، يمكن لأي شخص إنشاء قاعدة بيانات متجهات لأكثر من مليار صورة

  • Scenarios
November 11, 2020
milvus

أدى ارتفاع قوة الحوسبة وانخفاض تكاليف الحوسبة إلى جعل التحليلات على نطاق الآلة والذكاء الاصطناعي (AI) أكثر سهولة من أي وقت مضى. من الناحية العملية، هذا يعني أنه باستخدام خادم واحد فقط و10 أسطر من التعليمات البرمجية، يمكن بناء محرك بحث عكسي عن الصور قادر على الاستعلام عن أكثر من مليار صورة في الوقت الفعلي. تشرح هذه المقالة كيف يمكن استخدام Milvus، وهي منصة مفتوحة المصدر لإدارة البيانات المتجهة، لإنشاء أنظمة قوية لمعالجة البيانات غير المهيكلة وتحليلها، بالإضافة إلى التكنولوجيا الأساسية التي تجعل كل ذلك ممكنًا.

انتقل إلى:

كيف يتيح الذكاء الاصطناعي تحليلات البيانات غير المهيكلة؟

هناك إحصائية كثيرًا ما يُستشهد بها وهي أن 80% من بيانات العالم غير منظمة، ولكن لا يتم تحليل سوى 1% فقط من هذه البيانات. لا تتبع البيانات غير المهيكلة، بما في ذلك الصور والفيديو والصوت واللغة الطبيعية، نموذجًا أو طريقة تنظيم محددة مسبقًا. وهذا يجعل معالجة وتحليل مجموعات البيانات الكبيرة غير المهيكلة أمرًا صعبًا. نظرًا لأن انتشار الهواتف الذكية والأجهزة المتصلة الأخرى يدفع بإنتاج البيانات غير المهيكلة إلى آفاق جديدة، فإن الشركات تدرك بشكل متزايد مدى أهمية الرؤى المستمدة من هذه المعلومات الغامضة.

على مدى عقود، طوّر علماء الحاسوب خوارزميات فهرسة مصممة خصيصًا لتنظيم أنواع معينة من البيانات والبحث فيها وتحليلها. بالنسبة للبيانات المهيكلة، هناك الجداول النقطية وجداول التجزئة والشجرة ب، والتي تُستخدم عادةً في قواعد البيانات العلائقية التي طورها عمالقة التكنولوجيا مثل Oracle وIBM. أما بالنسبة للبيانات شبه المهيكلة، فإن خوارزميات الفهرسة المقلوبة هي المعيار القياسي، ويمكن العثور عليها في محركات البحث الشائعة مثل Solr وElasticSearch. ومع ذلك، تعتمد خوارزميات فهرسة البيانات غير المهيكلة على الذكاء الاصطناعي كثيف الحوسبة الذي أصبح متاحًا على نطاق واسع فقط في العقد الماضي.

تقوم الشبكات العصبية بتحويل البيانات غير المهيكلة إلى متجهات ميزات سهلة الاستخدام في الحاسوب

باستخدام الشبكات العصبية (مثل الشبكات العصبية (مثل CNN وRNN وBERT) يمكن تحويل البيانات غير المنظمة إلى متجهات ميزات (تُعرف أيضًا باسم التضمينات)، وهي عبارة عن سلسلة من الأعداد الصحيحة أو العائمة. تتم معالجة تنسيق البيانات الرقمية هذا بسهولة أكبر بكثير وتحليلها بواسطة الآلات. يمكن إنشاء تطبيقات تشمل البحث العكسي عن الصور، والبحث عن الفيديو، ومعالجة اللغات الطبيعية (NLP) وغيرها من خلال تضمين البيانات غير المنظمة في متجهات مميزة، ثم حساب التشابه بين المتجهات باستخدام مقاييس مثل المسافة الإقليدية أو تشابه جيب التمام.

Blog_Thanks to AI, Anyone Can Build a Search Engine for 1+ Billion Images_2.jpeg مدونة_بفضل الذكاء الاصطناعي، يمكن لأي شخص بناء محرك بحث لأكثر من مليار صورة_2.jpeg

يعد حساب التشابه بين المتجهات عملية بسيطة نسبيًا تعتمد على خوارزميات راسخة. ومع ذلك، عادةً ما تكون مجموعات البيانات غير المنظمة، حتى بعد تحويلها إلى متجهات مميزة، أكبر بعدة مرات من مجموعات البيانات التقليدية المنظمة وشبه المنظمة. إن البحث عن تشابه المتجهات معقد بسبب مساحة التخزين الهائلة وقوة الحوسبة المطلوبة للاستعلام بكفاءة ودقة عن البيانات غير المنظمة على نطاق واسع. ومع ذلك، إذا كان من الممكن التضحية بدرجة معينة من الدقة، فهناك العديد من خوارزميات البحث عن الجار القريب التقريبي (ANN) التي يمكنها تحسين كفاءة الاستعلام بشكل كبير لمجموعات البيانات الضخمة ذات الأبعاد العالية. وتقلل خوارزميات الشبكة النانوية ANN هذه من متطلبات التخزين والحمل الحسابي من خلال تجميع المتجهات المتشابهة معًا، مما يؤدي إلى بحث أسرع عن المتجهات. تشمل الخوارزميات الشائعة الاستخدام خوارزميات الشبكات العصبية الاصطناعية القائمة على الأشجار والرسم البياني والشبكات العصبية الاصطناعية المدمجة.

ما هي منصات إدارة البيانات المتجهة؟

منصات إدارة البيانات المتجهة هي تطبيقات مصممة خصيصًا لتخزين مجموعات البيانات المتجهة الضخمة ومعالجتها وتحليلها. صُممت هذه الأدوات للتفاعل بسهولة مع كميات كبيرة من البيانات، وتتضمن وظائف تبسط إدارة البيانات المتجهة. لسوء الحظ، يوجد عدد قليل من الأنظمة المرنة والقوية بما يكفي لحل تحديات البيانات الضخمة الحديثة. تحاول Milvus، وهي منصة لإدارة البيانات المتجهة أطلقتها شركة Zilliz وتم إصدارها بموجب ترخيص مفتوح المصدر في عام 2019، ملء هذا الفراغ.

ما هي قيود النهج الحالية لإدارة البيانات المتجهة؟

تتمثل إحدى الطرق الشائعة لبناء نظام تحليلات البيانات غير المهيكلة في إقران خوارزميات مثل الشبكة العصبية الاصطناعية مع مكتبات التنفيذ مفتوحة المصدر مثل البحث عن التشابه في الذكاء الاصطناعي على فيسبوك (Faiss). وبسبب العديد من القيود، فإن هذه المجموعات من الخوارزميات والمكتبات لا تعادل نظام إدارة بيانات المتجهات الكامل مثل Milvus. تواجه التكنولوجيا الحالية المستخدمة لإدارة بيانات المتجهات المشاكل التالية:

  1. المرونة: بشكل افتراضي، عادةً ما تقوم الأنظمة الحالية بتخزين جميع البيانات في الذاكرة الرئيسية، مما يعني أنه لا يمكن تشغيلها عبر أجهزة متعددة وهي غير مناسبة للتعامل مع مجموعات البيانات الضخمة.
  2. معالجة البيانات الديناميكية: غالبًا ما يُفترض أن تكون البيانات ثابتة بمجرد إدخالها في الأنظمة الحالية، مما يعقّد معالجة البيانات الديناميكية ويجعل البحث في الوقت الفعلي شبه مستحيل.
  3. معالجة الاستعلامات المتقدمة: لا تدعم معظم الأدوات المعالجة المتقدمة للاستعلامات (مثل تصفية السمات والاستعلامات متعددة النواقل)، وهو أمر ضروري لبناء محركات بحث تشابه مفيدة.
  4. تحسينات الحوسبة غير المتجانسة: يقدم عدد قليل من المنصات تحسينات لبنى النظام غير المتجانسة على كل من وحدات المعالجة المركزية ووحدات معالجة الرسومات (باستثناء فايس)، مما يؤدي إلى فقدان الكفاءة.

يحاول Milvus التغلب على كل هذه القيود. The system enhances flexibility by offering support for a variety of application interfaces (including SDKs in Python, Java, Go, C++ and RESTful APIs), multiple vector index types (e.g., quantization-based indexes and graph-based indexes), and advanced query processing. يتعامل Milvus مع بيانات المتجهات الديناميكية باستخدام شجرة دمج منظم السجل (شجرة LSM)، مما يحافظ على كفاءة عمليات إدخال البيانات وحذفها وعمليات البحث في الوقت الفعلي. يوفر Milvus أيضًا تحسينات لبنى الحوسبة غير المتجانسة على وحدات المعالجة المركزية ووحدات معالجة الرسومات الحديثة، مما يسمح للمطورين بضبط الأنظمة لسيناريوهات ومجموعات بيانات وبيئات تطبيقية محددة.

Blog_Thanks to AI, Anyone Can Build a Search Engine for 1+ Billion Images_3.png مدونة_بفضل الذكاء الاصطناعي، يمكن لأي شخص بناء محرك بحث لأكثر من مليار صورة_3.png

باستخدام تقنيات مختلفة لفهرسة الشبكات العصبية الاصطناعية، يستطيع نظام Milvus تحقيق معدل استرجاع بنسبة 99% من أعلى 5 صور. النظام قادر أيضًا على تحميل أكثر من مليون مدخل بيانات في الدقيقة. ينتج عن ذلك وقت استعلام أقل من ثانية واحدة عند إجراء بحث عكسي عن الصور على مليار صورة. وباعتباره تطبيقًا سحابيًا أصليًا يمكن أن يعمل كنظام موزع منتشر عبر عقد متعددة، يمكن ل Milvus تحقيق أداء مماثل بسهولة وموثوقية على مجموعات البيانات التي تحتوي على 10 أو حتى 100 مليار صورة. بالإضافة إلى ذلك، لا يقتصر النظام على بيانات الصور، حيث تشمل تطبيقاته الرؤية الحاسوبية والذكاء الاصطناعي التخاطبي وأنظمة التوصيات واكتشاف الأدوية الجديدة وغيرها.

كما هو موضح أعلاه، تتيح منصة إدارة البيانات المتجهة القادرة مثل Milvus المقترنة بخوارزميات الجار الأقرب التقريبي إمكانية البحث عن التشابه على كميات هائلة من البيانات غير المنظمة. يمكن استخدام هذه التقنية لتطوير تطبيقات تشمل مجموعة متنوعة من المجالات. نوضح أدناه بإيجاز العديد من حالات الاستخدام الشائعة لأدوات إدارة البيانات المتجهة والبحث عن التشابه المتجه.

تتيح محركات البحث الرئيسية مثل Google للمستخدمين بالفعل خيار البحث حسب الصورة. بالإضافة إلى ذلك، أدركت منصات التجارة الإلكترونية الفوائد التي توفرها هذه الوظيفة للمتسوقين عبر الإنترنت، حيث قامت شركة Amazon بدمج البحث عن الصور في تطبيقات الهواتف الذكية الخاصة بها.

Blog_Thanks to AI, Anyone Can Build a Search Engine for 1+ Billion Images_4.png مدونة_بفضل الذكاء الاصطناعي، يمكن لأي شخص بناء محرك بحث لأكثر من مليار صورة_4.png

تتيح البرمجيات مفتوحة المصدر مثل Milvus لأي شركة إنشاء نظام بحث عكسي عن الصور خاص بها، مما يقلل من الحواجز التي تحول دون دخول هذه الميزة التي يزداد الطلب عليها. يمكن للمطورين استخدام نماذج الذكاء الاصطناعي المدربة مسبقًا لتحويل مجموعات بيانات الصور الخاصة بهم إلى متجهات، ثم الاستفادة من Milvus لتمكين البحث عن منتجات مماثلة حسب الصورة.

أنظمة توصيات الفيديو

تقدم منصات الفيديو الرئيسية على الإنترنت مثل YouTube، التي تتلقى 500 ساعة من المحتوى الذي ينشئه المستخدمون كل دقيقة، متطلبات فريدة عندما يتعلق الأمر بالتوصية بالمحتوى. من أجل تقديم توصيات ذات صلة وفي الوقت الحقيقي تأخذ في الاعتبار التحميلات الجديدة، يجب أن توفر أنظمة توصيات الفيديو وقت استعلام سريع وفعّال في معالجة البيانات الديناميكية. من خلال تحويل الإطارات الرئيسية إلى متجهات ثم تغذية النتائج إلى Milvus، يمكن البحث عن مليارات من مقاطع الفيديو والتوصية بها في الوقت الفعلي تقريباً.

معالجة اللغة الطبيعية (NLP)

معالجة اللغة الطبيعية هي فرع من فروع الذكاء الاصطناعي يهدف إلى بناء أنظمة يمكنها تفسير اللغات البشرية. بعد تحويل البيانات النصية إلى متجهات، يمكن استخدام Milvus لتحديد النص المكرر وإزالته بسرعة، أو تشغيل البحث الدلالي، أو حتى بناء مساعد ذكي للكتابة. تساعد المنصة الفعالة لإدارة البيانات المتجهة على زيادة فائدة أي نظام معالجة اللغات الطبيعية إلى أقصى حد.

معرفة المزيد عن ميلفوس

إذا كنت ترغب في معرفة المزيد عن ميلفوس قم بزيارة موقعنا الإلكتروني. بالإضافة إلى ذلك، يقدم معسكرنا التدريبي العديد من البرامج التعليمية، مع إرشادات لإعداد Milvus، واختبار المعايير، وبناء مجموعة متنوعة من التطبيقات المختلفة. إذا كنت مهتمًا بإدارة البيانات المتجهة والذكاء الاصطناعي وتحديات البيانات الضخمة، يُرجى الانضمام إلى مجتمعنا مفتوح المصدر على GitHub والدردشة معنا على Slack.

هل تريد المزيد من المعلومات حول بناء نظام بحث عن الصور؟ اطلع على دراسة الحالة هذه:

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    استمر في القراءة