2023: عام الذكاء الاصطناعي
تم إنشاء هذه الصورة بواسطة الذكاء الاصطناعي.
كتب هذا المنشور جيمس لوان بمساعدة من ChatGPT. كتب جيمس بشكل أساسي المطالبات وراجع وصقل المحتوى الذي تم إنشاؤه بواسطة الذكاء الاصطناعي.
2023: عام الذكاء الاصطناعي
يمثل عام 2023 نقطة تحول محورية في الذكاء الاصطناعي (AI). احتلت النماذج اللغوية الكبيرة (LLMs) مركز الصدارة، وحظيت بتقدير واسع النطاق لقدراتها الاستثنائية في معالجة اللغة الطبيعية. وقد أدى هذا الارتفاع الكبير في شعبيتها إلى توسيع إمكانيات تطبيقات التعلم الآلي بشكل كبير، مما مكّن المطورين من إنشاء تطبيقات أكثر ذكاءً وتفاعلية.
وفي خضم هذه الثورة، برزت قواعد البيانات المتجهة كعنصر حاسم، حيث تعمل بمثابة الذاكرة طويلة المدى لتطبيقات تعلّم اللغة الطبيعية. وقد أظهر ظهور نماذج الجيل المعزز للاسترجاع (RAG) ، والوكلاء الأذكياء، وتطبيقات الاسترجاع متعدد الوسائط، الإمكانات الهائلة لقواعد البيانات المتجهة في تعزيز كفاءة استرجاع البيانات متعددة الوسائط، والحد من الهلوسة في LLMs، واستكمال معرفة المجال.
كما أدى تطور LLM إلى تحفيز التطورات الكبيرة في تقنيات التضمين. فوفقًا لمعيار معيار تضمين النص الضخم (MTEB) على موقع HuggingFace، تم إصدار نماذج تضمين رائدة مثل UAE وVoyageAI وCohereV3 وBge في عام 2023. وقد عززت هذه التطورات من فعالية استرجاع المتجهات لمختلف تقنيات البحث المتجه مثل Milvus، مما يوفر قدرات معالجة بيانات أكثر دقة وكفاءة لتطبيقات الذكاء الاصطناعي.
ومع ذلك، مع تزايد شعبية قواعد البيانات المتجهة، ظهرت مناقشات حول ضرورة وجود حلول متخصصة. دخلت عشرات الشركات الناشئة إلى ساحة قواعد البيانات المتجهة. وقد بدأت العديد من قواعد البيانات العلائقية التقليدية وقواعد بيانات NoSQL في التعامل مع المتجهات كنوع مهم من البيانات، ويدعي العديد منها أنها قادرة على استبدال قواعد البيانات المتجهة المتخصصة في كل موقف.
مع دخولنا عام 2024، إنها لحظة معقولة للتفكير في صناعة قواعد البيانات المتجهة بأكملها، مع التركيز بشكل خاص على Milvus - وهو منتج بارز في هذا المشهد.
ميلفوس في عام 2023: الأرقام لا تكذب
تم إطلاق Milvus لأول مرة في عام 2019، وكان رائدًا في مفهوم قواعد البيانات المتجهة وحافظ باستمرار على سمعة طيبة من حيث الموثوقية العالية وقابلية التوسع وجودة البحث والأداء. في عام 2023، حققت Milvus نتائج مبهرة وشهدت تحولات كبيرة، مدفوعة في المقام الأول بالتقدم السريع في مجال البرمجيات الخفيفة وازدهار تطبيقات AIGC. فيما يلي بعض الأرقام الرئيسية التي تمثل أفضل تمثيل لتقدم ميلفوس في عام 2023.
صفر وقت تعطل أثناء الترقيات المتجددة
بالنسبة لأولئك الجدد على قواعد البيانات المتجهة، ينصب تركيزهم الأساسي على الوظائف بدلاً من الصيانة التشغيلية. كما يولي العديد من مطوّري التطبيقات اهتمامًا أقل للاستقرار في قواعد البيانات المتجهة مقارنةً بقواعد بيانات المعاملات لأن تطبيقاتهم غالبًا ما تكون في المراحل الأولى من الاستكشاف. ومع ذلك، يصبح الاستقرار أمرًا لا غنى عنه إذا كنت تهدف إلى نشر تطبيق AIGC الخاص بك في بيئة الإنتاج وتحقيق أفضل تجربة للمستخدم.
يميز Milvus نفسه من خلال إعطاء الأولوية ليس فقط للوظائف ولكن أيضًا للاستقرار التشغيلي. أضفنا ترقيات متجددة إلى Milvus بدءًا من الإصدار 2.2.3. بعد التحسين المستمر، يمكن أن تضمن هذه الميزة عدم حدوث أي تعطل أثناء الترقيات دون مقاطعة العمليات التجارية.
تحسين الأداء 3 أضعاف في بيئات الإنتاج
يجب أن يكون تعزيز أداء البحث المتجه هدفًا أساسيًا لقواعد بيانات المتجهات. اختارت العديد من حلول البحث المتجه أن تبني حلها على تكييف خوارزمية HNSW للوصول إلى السوق بسرعة؛ وللأسف، يؤدي ذلك إلى مواجهة تحديات كبيرة في بيئات الإنتاج في العالم الحقيقي، خاصةً مع عمليات البحث التي تمت تصفيتها بشكل كبير (أكثر من 90%) وعمليات حذف البيانات المتكررة. يأخذ Milvus الأداء بعين الاعتبار منذ البداية ويتفوق في تحسين الأداء خلال أي مرحلة من مراحل التطوير، خاصةً في بيئات الإنتاج، محققًا تحسنًا في أداء البحث بمقدار ثلاثة أضعاف، خاصةً في حالات البحث المصفاة وإدخال/إدخال البيانات المتدفقة.
ولمساعدة مجتمع قواعد البيانات المتجهة بشكل أكبر، قدمنا العام الماضي VectorDBBench، وهي أداة قياس أداء مفتوحة المصدر. هذه الأداة حيوية للتقييمات المبكرة لقواعد البيانات المتجهة في ظروف مختلفة. على عكس طرق التقييم التقليدية، تقوم VectorDBBench بتقييم قواعد البيانات باستخدام بيانات العالم الحقيقي، بما في ذلك مجموعات البيانات الكبيرة جدًا أو تلك التي تشبه إلى حد كبير البيانات من نماذج التضمين الفعلية، مما يوفر للمستخدمين معلومات أكثر ثاقبة لاتخاذ قرارات مستنيرة.
تحسين الاستدعاء بنسبة 5% على مجموعة بيانات Beir
على الرغم من أن التضمينات الكثيفة أثبتت فعاليتها في البحث المتجه، إلا أنها يجب أن تلحق بالبحث عن الأسماء والأشياء والاختصارات وسياقات الاستعلامات القصيرة. واستجابةً للقيود التي تفرضها هذه الطرق، قدّمت شركة Milvus نهج استعلام هجين يدمج التضمينات الكثيفة مع التضمينات المتفرقة لتحسين جودة نتائج البحث. وقد أدى تآزر هذا الحل الهجين مع نموذج إعادة الترتيب إلى تحسن كبير بنسبة 5% في معدل الاستدعاء على مجموعة بيانات Beir، كما أثبتت اختباراتنا صحة ذلك.
وبعيدًا عن التحسينات في جودة البحث، كشفت شركة Milvus أيضًا عن حل استرجاع قائم على الرسم البياني مصمم خصيصًا للتضمينات المتناثرة، متجاوزًا أداء خوارزميات البحث التقليدية مثل WAND.
في مسابقة NeurIPS BigANN لعام 2023، قدم زيهاو وانغ، وهو مهندس موهوب في شركة Zilliz، خوارزمية البحث Pyanns، وهي خوارزمية بحث أظهرت تفوقاً كبيراً على المشاركات الأخرى في مسار البحث عن التضمينات المتفرقة. هذا الحل المتطور هو مقدمة لخوارزميات بحث التضمين المتناثر الخاصة بنا في بيئات الإنتاج.
توفير 10 أضعاف الذاكرة على مجموعات البيانات الكبيرة
كانالتوليد المعزز للاسترجاع (RAG) حالة الاستخدام الأكثر شيوعًا لقواعد البيانات المتجهة في عام 2023. ومع ذلك، تمثل الزيادة في أحجام البيانات المتجهة مع تطبيقات RAG تحديًا في التخزين لهذه التطبيقات. وينطبق هذا التحدي بشكل خاص عندما يتجاوز حجم المتجهات المحولة حجم أجزاء المستندات الأصلية، مما قد يؤدي إلى زيادة تكاليف استخدام الذاكرة. على سبيل المثال، بعد تقسيم المستندات إلى أجزاء، يكون حجم متجه عائم 32 ذي 1536 بُعدًا (حوالي 3 كيلو بايت) المحول من جزء مكون من 500 رمز (حوالي 1 كيلو بايت) أكبر من حجم الجزء المكون من 500 رمز.
Milvus هي أول قاعدة بيانات متجهة مفتوحة المصدر تدعم الفهرسة المستندة إلى القرص، مما يحقق توفيرًا ملحوظًا في الذاكرة بمقدار 5 أضعاف. وبحلول نهاية عام 2023، قدمنا Milvus 2.3.4، مما يتيح القدرة على تحميل البيانات/الفهارس القياسية والمتجهة على القرص باستخدام ملفات معيّنة بالذاكرة(MMap). يوفر هذا التقدم أكثر من 10 أضعاف في استخدام الذاكرة مقارنةً بالفهرسة التقليدية داخل الذاكرة.
20 إصدار ميلفوس
في عام 2023، مرّ Milvus برحلة تحولية تميزت بإنجازات مهمة. على مدار العام، أطلقنا 20 إصدارًا، وهو ما يعد شهادة على تفاني أكثر من 300 مطور من مطوري المجتمع وتحقيق التزامنا بنهج يحركه المستخدم في التطوير.
وللتوضيح، قدم الإصدار Milvus 2.2.9 مخططًا ديناميكيًا، مما يمثل تحولًا حاسمًا من إعطاء الأولوية للأداء إلى تعزيز سهولة الاستخدام. وبناءً على ذلك، قدّم ميلفوس 2.3 ميزات مهمة مثل Upsert، والبحث عن النطاق، ومقاييس جيب التمام وغيرها، وكل ذلك مدفوعًا باحتياجات مجتمع المستخدمين وملاحظاتهم. تؤكد عملية التطوير التكرارية هذه على التزامنا بمواءمة Milvus باستمرار مع المتطلبات المتطورة لمستخدمينا.
1,000,000 مستأجر في كاستر واحد
يعد تنفيذ الإيجارات المتعددة أمرًا بالغ الأهمية لتطوير أنظمة RAG ووكلاء الذكاء الاصطناعي وتطبيقات LLM الأخرى، وتلبية متطلبات المستخدمين المتزايدة لعزل البيانات. بالنسبة لشركات B2C، يمكن أن يرتفع عدد المستأجرين إلى الملايين، مما يجعل العزل المادي لبيانات المستخدم غير عملي (على سبيل المثال، من غير المحتمل أن يقوم أي شخص بإنشاء ملايين الجداول في قاعدة بيانات علائقية). قدّمت Milvus ميزة مفتاح التقسيم، مما يسمح بالعزل المنطقي الفعّال وتصفية البيانات بناءً على مفاتيح التقسيم، وهو أمر مفيد على نطاق واسع.
وعلى العكس من ذلك، تستفيد مؤسسات B2B، المعتادة على التعامل مع عشرات الآلاف من المستأجرين، من استراتيجية أكثر دقة تتضمن عزل الموارد المادية. يجلب أحدث إصدار من Milvus 2.3.4 إدارة محسّنة للذاكرة، ومعالجة الروتين، وتحسين وحدة المعالجة المركزية، مما يجعل إنشاء عشرات الآلاف من الجداول داخل مجموعة واحدة أسهل. يستوعب هذا التحسين أيضًا احتياجات الأعمال التجارية بين الشركات مع تعزيز الكفاءة والتحكم.
10,000,000 عملية سحب لصور Docker
مع اقتراب عام 2023 من نهايته، حققت Milvus إنجازاً مثيراً للإعجاب مع 10 ملايين عملية سحب لصور Docker. يشير هذا الإنجاز إلى الانبهار المتزايد لمجتمع المطورين بـ Milvus ويؤكد على أهميته المتزايدة في مجال قواعد البيانات المتجهة.
وباعتبارها أول قاعدة بيانات ناقلات سحابية أصلية في العالم، تتميز Milvus بتكاملها السلس مع Kubernetes ومنظومة الحاويات الأوسع نطاقًا. عند التحديق في المستقبل، لا يسع المرء إلا أن يفكر في النقطة المحورية التالية في مشهد قواعد البيانات المتجهة دائم التطور. هل يمكن أن يكون صعود الخدمات بدون خادم؟
10 مليارات كيان في مجموعة واحدة
على الرغم من أن قابلية التوسع قد لا تسرق الأضواء حاليًا في ظاهرة الذكاء الاصطناعي، إلا أنها بالتأكيد تلعب دورًا محوريًا، بعيدًا عن كونها مجرد عرض جانبي. يمكن لقاعدة بيانات Milvus المتجهة أن تتوسع بسلاسة لاستيعاب مليارات البيانات المتجهة دون عناء. ألقِ نظرة على أحد عملاء LLM على سبيل المثال. ساعدت شركة Milvus هذا العميل على تخزين ومعالجة واسترجاع 10 مليارات نقطة بيانات مذهلة دون عناء. ولكن كيف يمكنك الموازنة بين التكلفة والأداء عند التعامل مع مثل هذا الحجم الهائل من البيانات؟ كن مطمئنًا، لدى Mivus قدرات متنوعة لمساعدتك في مواجهة هذا التحدي والارتقاء بتجربتك.
ما وراء الأرقام: الرؤى الجديدة في قواعد البيانات المتجهة
بعيداً عن المعالم الرقمية، أغنانا عام 2023 برؤى قيمة. لقد تعمقنا في تعقيدات مشهد قواعد بيانات المتجهات، متجاوزين مجرد الإحصائيات لفهم الفروق الدقيقة والديناميكيات المتطورة لتقنية البحث عن المتجهات.
لا تزال تطبيقات LLM في المراحل الأولى.
وبالعودة إلى الأيام الأولى لطفرة الإنترنت عبر الهاتف المحمول، أنشأ العديد من المطورين تطبيقات بسيطة مثل المصابيح اليدوية أو توقعات الطقس، والتي تم دمجها في نهاية المطاف في أنظمة تشغيل الهواتف الذكية. في العام الماضي، لم تقدم معظم تطبيقات الذكاء الاصطناعي الأصلية، مثل تطبيق AutoGPT، الذي وصل بسرعة إلى 100 ألف نجمة على GitHub، قيمة عملية بل كانت تمثل تجارب ذات مغزى فقط. بالنسبة لتطبيقات قواعد البيانات المتجهة، قد تكون حالات الاستخدام الحالية مجرد الموجة الأولى من تحولات الذكاء الاصطناعي الأصلي، وأتوقع بفارغ الصبر ظهور المزيد من حالات الاستخدام القاتلة.
تتجه قواعد البيانات المتجهة نحو التنويع.
على غرار تطور قواعد البيانات إلى فئات مثل OLTP و OLAP و NoSQL، تُظهر قواعد البيانات المتجهة اتجاهًا واضحًا نحو التنويع. وبعيدًا عن التركيز التقليدي على الخدمات عبر الإنترنت، اكتسب التحليل غير المتصل بالإنترنت قوة جذب كبيرة. من الأمثلة البارزة الأخرى على هذا التحول تقديم GPTCache، وهي ذاكرة تخزين مؤقت دلالية مفتوحة المصدر تم إصدارها في عام 2023. وهو يعزز من كفاءة وسرعة التطبيقات القائمة على GPT من خلال تخزين واسترجاع الاستجابات الناتجة عن النماذج اللغوية.
نحن متفائلون ومتحمسون لأن نشهد المزيد من التطبيقات وتصميمات الأنظمة المتنوعة في قواعد البيانات المتجهة في العام القادم.
أصبحت عمليات المتجهات أكثر تعقيداً.
وعلى الرغم من أن دعم البحث عن الجار الأقرب التقريبي (ANN) هو سمة مميزة لقواعد بيانات المتجهات، إلا أنه لا يقف بمفرده. فالاعتقاد الشائع بأن مجرد الاحتفاظ بالبحث الأقرب جوار كافٍ لتصنيف قاعدة البيانات كقاعدة بيانات متجهة أو قاعدة بيانات أصلية للذكاء الاصطناعي يبالغ في تبسيط تعقيدات عمليات المتجهات. فبالإضافة إلى القدرات الأساسية للتصفية القياسية الهجينة والبحث المتجه، يجب أن تدعم قواعد البيانات المصممة للتطبيقات الأصلية للذكاء الاصطناعي قدرات دلالية أكثر تعقيدًا مثل تصفية NN، وKNN Join، والاستعلام عن المجموعات.
قابلية التوسع المرنة ضرورية للتطبيقات الأصلية للذكاء الاصطناعي.
إن النمو المتسارع لتطبيقات الذكاء الاصطناعي، الذي يتجسد في ChatGPT الذي جمع أكثر من 100 مليون مستخدم نشط شهرياً في شهرين، يتجاوز أي مسار عمل سابق. يصبح التوسع السريع من مليون إلى مليار نقطة بيانات أمرًا بالغ الأهمية بمجرد أن تصل الشركات إلى مرحلة النمو. ويستفيد مطورو تطبيقات الذكاء الاصطناعي من نموذج خدمة الدفع حسب الاستخدام الذي يضعه مزودو خدمة LLM، مما يؤدي إلى تخفيضات كبيرة في التكاليف التشغيلية. وبالمثل، فإن تخزين البيانات التي تتماشى مع نموذج التسعير هذا يثبت فائدته للمطورين، مما يسمح لهم بتوجيه المزيد من الاهتمام نحو الأعمال الأساسية.
على عكس نماذج اللغة (LLMs) ومختلف الأنظمة التكنولوجية الأخرى، تعمل قواعد البيانات المتجهة بطريقة ذات حالة، مما يتطلب تخزين بيانات ثابتة لوظائفها. وبالتالي، عند اختيار قواعد البيانات المتجهة، من الضروري إعطاء الأولوية للمرونة وقابلية التوسع. يضمن هذا التحديد للأولويات التوافق مع المتطلبات الديناميكية لتطبيقات الذكاء الاصطناعي المتطورة، مما يبرز الحاجة إلى القدرة على التكيف السلس مع أعباء العمل المتغيرة.
يمكن أن تؤدي الاستفادة من التعلم الآلي في قواعد البيانات المتجهة إلى نتائج استثنائية.
في عام 2023، أثمر استثمارنا الكبير في مشاريع AI4DB (الذكاء الاصطناعي لقواعد البيانات) نجاحاً ملحوظاً. وكجزء من مساعينا، قدمنا قدرتين محوريتين إلى Zilliz Cloud، وهو حل Milvus المُدار بالكامل: 1) الفهرس التلقائي، وهو فهرس ضبط تلقائي للمعلمات متجذر في التعلم الآلي، و2) استراتيجية تقسيم البيانات على أساس تجميع البيانات. لعب كلا الابتكارين دورًا حاسمًا في تعزيز أداء البحث في Zilliz Cloud بشكل كبير.
المصدر المفتوح مقابل المصدر المغلق
تتصدر قواعد البيانات مفتوحة المصدر المغلقة المصدر مثل سلسلة GPT من OpenAI و Claude في الوقت الحالي، مما يضع مجتمع المصادر المفتوحة في وضع غير مواتٍ بسبب عدم وجود موارد حاسوبية وبيانات مماثلة.
ومع ذلك، ضمن قواعد البيانات المتجهة، سيصبح المصدر المفتوح في نهاية المطاف الخيار المفضل للمستخدمين. يقدم اختيار المصدر المفتوح العديد من المزايا، بما في ذلك حالات استخدام أكثر تنوعًا، والتكرار السريع، وتنمية نظام بيئي أكثر قوة. وعلاوة على ذلك، فإن أنظمة قواعد البيانات معقدة للغاية بحيث لا يمكنها تحمل الغموض الذي غالبًا ما يرتبط بالمصادر المفتوحة المصدر. يجب على المستخدمين فهم قاعدة البيانات بدقة قبل اختيار النهج الأكثر منطقية لاستخدامها. علاوةً على ذلك، فإن الشفافية المتأصلة في المصادر المفتوحة تمكّن المستخدمين من امتلاك الحرية والتحكم في تخصيص قاعدة البيانات وفقًا لاحتياجاتهم.
الخاتمة - وبداية جديدة!
مع مرور عام 2023 بسرعة وسط تغيرات تحولية، فإن قصة قواعد البيانات المتجهة ما زالت في بدايتها. تدور رحلتنا مع قاعدة بيانات المتجهات Milvus حول شيء آخر غير الضجيج الذي أحدثته قاعدة بيانات المتجهات. وبدلاً من ذلك، فإننا نركز على تطوير منتجنا بدقة، وتحديد حالات استخدام التطبيقات التي تتوافق مع نقاط قوتنا ورعايتها، وخدمة مستخدمينا بلا تردد. يهدف التزامنا بالمصدر المفتوح إلى سد الفجوة بيننا وبين مستخدمينا، مما يسمح لهم بالشعور بتفانينا وحرفية عملنا، حتى من مسافة بعيدة.
شهد عام 2023 أيضاً تأسيس العديد من الشركات الناشئة في مجال الذكاء الاصطناعي وحصولها على أولى جولات التمويل. إنه لأمر مثير أن أرى الابتكار من هؤلاء المطورين، وهذا يذكرني بالسبب الذي دفعني إلى تطوير VectorDB في المقام الأول. سيكون عام 2024 هو العام الذي ستكتسب فيه جميع هذه التطبيقات المبتكرة قوة جذب حقيقية، ليس فقط لجذب التمويل ولكن لجذب عملاء حقيقيين يدفعون أموالاً. ستجلب عائدات العملاء متطلبات مختلفة لهؤلاء المطورين، حيث إن بناء حل قابل للتطوير بشكل كامل مع القليل من الوقت الضائع أو بدونه أمر بالغ الأهمية.
دعونا نحقق أشياء استثنائية في عام 2024!
- ميلفوس في عام 2023: الأرقام لا تكذب
- ما وراء الأرقام: الرؤى الجديدة في قواعد البيانات المتجهة
- الخاتمة - وبداية جديدة!
On This Page
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word