🚀 جرب Zilliz Cloud، الـ Milvus المدارة بالكامل، مجاناً — تجربة أداء أسرع بـ 10 أضعاف! جرب الآن>>

milvus-logo
LFAI
  • Home
  • Blog
  • لمعرفة المزيد حول البحث عن التشابه المتجه، راجع الموارد التالية:

لمعرفة المزيد حول البحث عن التشابه المتجه، راجع الموارد التالية:

  • Engineering
January 05, 2021
milvus

يمتلكالذكاء الاصطناعي (AI) القدرة على تغيير الطريقة التي تتم بها أكثر الأشياء غموضاً. على سبيل المثال، يتجمع كل عام (قبل COVID، على أي حال) أكثر من 73,000 شخص للتنافس في ماراثون هونغ كونغ. من أجل استشعار وتسجيل أوقات الانتهاء لجميع المشاركين في السباق بشكل صحيح، يقوم المنظمون بتوزيع 73,000 رقاقة توقيت تعمل بتقنية RFID لإرفاقها مع كل عداء. يعد توقيت الرقاقات مهمة معقدة ذات سلبيات واضحة. يجب شراء المواد (الرقاقات وأجهزة القراءة الإلكترونية) أو استئجارها من شركات التوقيت، ويجب أن يكون هناك منطقة تسجيل للمتسابقين لجمع الرقاقات في يوم السباق. بالإضافة إلى ذلك، إذا تم تركيب أجهزة الاستشعار عند خطي البداية والنهاية فقط، فمن الممكن أن يقوم المتسابقون عديمو الضمير بقطع المسار.

blog-1.jpeg blog-1.jpeg

تخيل الآن تطبيق ذكاء اصطناعي للفيديو قادر على تحديد العدائين الفرديين تلقائياً من اللقطات الملتقطة عند خط النهاية باستخدام صورة واحدة. فبدلاً من إرفاق رقائق توقيت لكل متسابق، يقوم المتسابقون ببساطة بتحميل صورة لأنفسهم عبر التطبيق بعد عبورهم خط النهاية. وعلى الفور، يتم توفير شريط مخصص وإحصائيات السباق وغيرها من المعلومات ذات الصلة. يمكن للكاميرات المثبتة في نقاط مختلفة في جميع أنحاء السباق التقاط لقطات إضافية للمشاركين والتأكد من أن كل متسابق يجتاز المسار بأكمله. ما الحل الذي يبدو أسهل وأكثر فعالية من حيث التكلفة في التنفيذ؟

على الرغم من أن ماراثون هونغ كونغ لا يستفيد من التعلم الآلي لاستبدال رقائق التوقيت (حتى الآن)، إلا أن هذا المثال يوضح القدرة الكامنة في الذكاء الاصطناعي على تغيير كل شيء من حولنا بشكل جذري. بالنسبة لتوقيت السباق، فإنه يقلل من عشرات الآلاف من الرقائق إلى بضع كاميرات مقترنة بخوارزميات التعلم الآلي. لكن الذكاء الاصطناعي للفيديو هو مجرد تطبيق واحد من تطبيقات عديدة للبحث عن التشابه المتجه، وهي عملية تستخدم الذكاء الاصطناعي لتحليل مجموعات بيانات ضخمة غير منظمة على نطاق تريليوني. تقدم هذه المقالة لمحة عامة عن تقنية البحث المتجه بما في ذلك ماهيتها، وكيف يمكن استخدامها، بالإضافة إلى البرامج والموارد مفتوحة المصدر التي تجعلها متاحة أكثر من أي وقت مضى.

الانتقال إلى:

بيانات الفيديو مفصلة بشكل لا يصدق وشائعة بشكل متزايد، لذا يبدو منطقيًا أنها ستكون إشارة تعلم رائعة غير خاضعة للإشراف لبناء ذكاء اصطناعي للفيديو. في الواقع، ليس هذا هو الحال. لا تزال معالجة بيانات الفيديو وتحليلها، خاصةً بكميات كبيرة، تمثل تحديًا للذكاء الاصطناعي. يعود التقدم الأخير في هذا المجال، مثل الكثير من التقدم المحرز في تحليلات البيانات غير المهيكلة، في جزء كبير منه إلى البحث عن التشابه المتجه.

تكمن مشكلة الفيديو، مثل جميع البيانات غير المهيكلة، في أنها لا تتبع نموذجًا أو هيكلًا تنظيميًا محددًا مسبقًا، مما يجعل من الصعب معالجتها وتحليلها على نطاق واسع. تتضمن البيانات غير المهيكلة أشياء مثل الصور والصوت وسلوكيات وسائل التواصل الاجتماعي والمستندات، والتي تمثل مجتمعةً ما يقدر بنحو 80-90% أو أكثر من جميع البيانات. تدرك الشركات بشكل متزايد الرؤى المهمة للأعمال المدفونة في مجموعات البيانات الضخمة غير المهيكلة والمبهمة، مما يؤدي إلى زيادة الطلب على تطبيقات الذكاء الاصطناعي التي يمكنها الاستفادة من هذه الإمكانات غير المحققة.

وباستخدام الشبكات العصبية مثل CNN وRNN وRNN وBERT، يمكن تحويل البيانات غير المهيكلة إلى متجهات ميزات (تُعرف أيضًا باسم التضمينات)، وهي تنسيق بيانات رقمية يمكن قراءتها آليًا. ثم تُستخدم الخوارزميات لحساب التشابه بين المتجهات باستخدام مقاييس مثل تشابه جيب التمام أو المسافة الإقليدية. يتيح تضمين المتجهات والبحث عن التشابه إمكانية تحليل وبناء تطبيقات التعلّم الآلي باستخدام مجموعات بيانات لم تكن قابلة للتمييز سابقًا.

يتم حساب التشابه بين المتجهات باستخدام خوارزميات راسخة، إلا أن مجموعات البيانات غير المنظمة عادةً ما تكون ضخمة. وهذا يعني أن البحث الفعال والدقيق يتطلب تخزينًا واسعًا وقوة حوسبة هائلة. ولتسريع عملية البحث عن التشابه وتقليل متطلبات الموارد، يتم استخدام خوارزميات البحث التقريبي عن الجار القريب (ANN). من خلال تجميع المتجهات المتشابهة معًا، تتيح خوارزميات الشبكة النانوية ANN إرسال الاستعلامات إلى مجموعات المتجهات التي من المرجح أن تحتوي على متجهات متشابهة بدلاً من البحث في مجموعة البيانات بأكملها. على الرغم من أن هذا النهج أسرع، إلا أنه يضحي بدرجة معينة من الدقة. تسمح الاستفادة من خوارزميات الشبكة العصبية الاصطناعية بالبحث في المتجهات بتمشيط مليارات الرؤى الخاصة بنماذج التعلم العميق في أجزاء من الثانية.

البحث عن التشابه المتجهي له تطبيقات تشمل مجموعة واسعة من سيناريوهات الذكاء الاصطناعي والتعلم العميق وحساب المتجهات التقليدية. فيما يلي نظرة عامة عالية المستوى على مختلف تطبيقات البحث عن التشابه المتجهي:

التجارة الإلكترونية: يتمتع بحث التشابه المتجه بإمكانية تطبيق واسعة النطاق في التجارة الإلكترونية، بما في ذلك محركات البحث العكسي عن الصور التي تسمح للمتسوقين بالبحث عن المنتجات باستخدام صورة تم التقاطها على هواتفهم الذكية أو تم العثور عليها عبر الإنترنت. بالإضافة إلى ذلك، يمكن تقديم توصيات مخصصة بناءً على سلوك المستخدم واهتماماته وسجل الشراء وغير ذلك من خلال أنظمة التوصية المتخصصة التي تعتمد على البحث المتجه.

الأمن المادي والإلكتروني: الذكاء الاصطناعي للفيديو هو مجرد واحد من العديد من تطبيقات البحث عن التشابه المتجه في مجال الأمن. وتشمل السيناريوهات الأخرى التعرف على الوجه، وتتبع السلوك، والمصادقة على الهوية، والتحكم الذكي في الوصول، وغير ذلك. بالإضافة إلى ذلك، يلعب بحث التشابه المتجه دورًا مهمًا في إحباط الهجمات الإلكترونية الشائعة والمتطورة بشكل متزايد. على سبيل المثال، يمكن استخدام البحث عن تشابه التعليمات البرمجية لتحديد المخاطر الأمنية من خلال مقارنة جزء من البرمجيات بقاعدة بيانات للثغرات المعروفة أو البرمجيات الخبيثة.

محركات التوصيات: محركات التوصيات هي أنظمة تستخدم التعلم الآلي وتحليل البيانات لاقتراح المنتجات والخدمات والمحتوى والمعلومات للمستخدمين. تتم معالجة سلوك المستخدم وسلوك المستخدمين المماثلين والبيانات الأخرى باستخدام أساليب التعلّم العميق لتوليد التوصيات. مع وجود بيانات كافية، يمكن تدريب الخوارزميات على فهم العلاقات بين الكيانات وابتكار طرق لتمثيلها بشكل مستقل. تتمتع أنظمة التوصيات بإمكانية تطبيق واسعة النطاق وهي شيء يتفاعل معه الناس بالفعل كل يوم، بما في ذلك توصيات المحتوى على نتفليكس، وتوصيات التسوق على أمازون، وموجزات الأخبار على فيسبوك.

روبوتات الدردشة: تقليدياً، يتم إنشاء روبوتات الدردشة الآلية باستخدام رسم بياني معرفي عادي يتطلب مجموعة بيانات تدريبية كبيرة. ومع ذلك، لا تحتاج روبوتات الدردشة الآلية التي تم إنشاؤها باستخدام نماذج التعلم العميق إلى معالجة البيانات مسبقاً - بدلاً من ذلك، يتم إنشاء خريطة بين الأسئلة المتكررة والإجابات. وباستخدام نموذج معالجة اللغة الطبيعية (NLP) المدرب مسبقاً، يمكن استخراج متجهات السمات من الأسئلة ثم تخزينها والاستعلام عنها باستخدام منصة إدارة بيانات المتجهات.

البحث عن الصور أو الفيديو: استُخدمت شبكات التعلم العميق للتعرف على الأنماط المرئية منذ أواخر السبعينيات، وقد جعلت اتجاهات التكنولوجيا الحديثة البحث عن الصور والفيديو أكثر قوة وسهولة من أي وقت مضى.

البحث عن التشابه الكيميائي: التشابه الكيميائي هو المفتاح للتنبؤ بخصائص المركبات الكيميائية والعثور على المواد الكيميائية ذات السمات المحددة، مما يجعلها لا غنى عنها لتطوير عقاقير جديدة. يتم إنشاء بصمات الأصابع التي تمثلها متجهات السمات لكل جزيء، ثم تُستخدم المسافات بين المتجهات لقياس التشابه. ويكتسب استخدام الذكاء الاصطناعي لاكتشاف أدوية جديدة زخمًا في صناعة التكنولوجيا، حيث بدأت شركة ByteDance (الشركة الأم لشركة TikTok الصينية) في توظيف المواهب في هذا المجال.

برامج وموارد البحث عن التشابه المتجهية مفتوحة المصدر.

إن قانون مور، والحوسبة السحابية، وانخفاض تكاليف الموارد هي اتجاهات كلية جعلت الذكاء الاصطناعي أكثر سهولة من أي وقت مضى. وبفضل البرامج مفتوحة المصدر والموارد الأخرى المتاحة للجمهور، لم يعد بناء تطبيقات الذكاء الاصطناعي/التشابه المتجهي فقط لشركات التكنولوجيا الكبرى. نقدم أدناه لمحة موجزة عن Milvus، وهي منصة مفتوحة المصدر لإدارة البيانات المتجهة، كما نسلط الضوء على بعض مجموعات البيانات المتاحة للجمهور التي تساعد في وضع الذكاء الاصطناعي في متناول الجميع.

ميلفوس، منصة مفتوحة المصدر لإدارة البيانات المتجهة

Milvus عبارة عن منصة مفتوحة المصدر لإدارة البيانات المتجهة مصممة خصيصًا للبيانات المتجهة واسعة النطاق. مدعوم من بحث التشابه بالذكاء الاصطناعي من فيسبوك (Faiss)، ومكتبة الفضاء غير المتري (NMSLIB)، وAnnoy، يجمع Milvus مجموعة متنوعة من الأدوات القوية معًا تحت منصة واحدة مع توسيع وظائفها المستقلة. صُمم النظام خصيصًا لتخزين ومعالجة وتحليل مجموعات البيانات المتجهة الكبيرة، ويمكن استخدامه لبناء جميع تطبيقات الذكاء الاصطناعي (وأكثر) المذكورة أعلاه.

يمكن العثور على مزيد من المعلومات حول ميلفوس على موقعه الإلكتروني. تتوفر البرامج التعليمية والتعليمات الخاصة بإعداد Milvus، والاختبارات المعيارية، ومعلومات حول بناء مجموعة متنوعة من التطبيقات المختلفة في معسكر تدريب Milvus. يمكن للمطورين المهتمين بتقديم مساهمات في المشروع الانضمام إلى مجتمع ميلفوس المفتوح المصدر على GitHub.

مجموعات البيانات العامة للذكاء الاصطناعي والتعلم الآلي

لا يخفى على أحد أن شركات التكنولوجيا العملاقة مثل جوجل وفيسبوك تتمتع بأفضلية في البيانات على الشركات الصغيرة، حتى أن بعض النقاد يدعون إلى "تفويض تدريجي لمشاركة البيانات" من شأنه أن يجبر الشركات التي تتجاوز حجمًا معينًا على مشاركة بعض البيانات مجهولة المصدر مع الشركات المنافسة الأصغر. لحسن الحظ، هناك الآلاف من مجموعات البيانات المتاحة للجمهور والتي يمكن استخدامها لمشاريع AL/ML:

  • مجموعة بيانات كلام الناس: تقدم مجموعة البيانات هذه من ML Commons أكبر مجموعة بيانات للكلام في العالم، مع أكثر من 87,000 ساعة من الكلام المكتوب بـ 59 لغة مختلفة.

  • مستودع التعلم الآلي بجامعة كاليفورنيا في إيرفين: تحتفظ جامعة كاليفورنيا في إيرفين بالمئات من مجموعات البيانات العامة في محاولة لمساعدة مجتمع التعلم الآلي.

  • Data.gov: تقدم حكومة الولايات المتحدة مئات الآلاف من مجموعات البيانات المفتوحة التي تشمل التعليم والمناخ وجائحة كوفيد-19 وغيرها.

  • Eurostat: يوفر المكتب الإحصائي للاتحاد الأوروبي مجموعات بيانات مفتوحة تغطي مجموعة متنوعة من القطاعات من الاقتصاد والتمويل إلى السكان والظروف الاجتماعية.

  • Harvard Dataverse: مستودع بيانات هارفارد Dataverse هو مستودع بيانات مجاني مفتوح للباحثين في مختلف التخصصات. العديد من مجموعات البيانات عامة، بينما يأتي البعض الآخر بشروط استخدام أكثر تقييدًا.

على الرغم من أن هذه القائمة ليست شاملة بأي حال من الأحوال، إلا أنها نقطة انطلاق جيدة لاكتشاف مجموعة واسعة ومدهشة من مجموعات البيانات المفتوحة. لمزيد من المعلومات حول مجموعات البيانات العامة بالإضافة إلى اختيار البيانات المناسبة لمشروعك القادم في مجال التعلم الآلي أو علم البيانات، اطلع على هذا المنشور على موقع Medium.

لمعرفة المزيد حول البحث عن التشابه المتجه، راجع الموارد التالية:

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    استمر في القراءة