ما وراء جدل TurboQuant-RaBitQ: لماذا يعتبر التحويل الكمي مهمًا لتكاليف البنية التحتية للذكاء الاصطناعي
أبلغت ورقة TurboQuant من Google (ICLR 2026) عن ضغط ذاكرة التخزين المؤقت 6 أضعاف KV مع فقدان الدقة شبه الصفر - نتائج مذهلة بما يكفي لمسح 90 مليار دولار من أسهم رقائق الذاكرة في يوم واحد. انخفضت SK Hynix بنسبة 12%. وانخفضت سامسونج بنسبة 7%.
وسرعان ما لفتت الورقة البحثية الأنظار. أثار جيانيانج جاو، المؤلف الأول لـ RaBitQ (SIGMOD 2024)، تساؤلات حول العلاقة بين منهجية TurboQuant وعمله السابق على تكميم المتجهات. (سننشر محادثة مع الدكتور غاو قريبًا - تابعنا إذا كنت مهتمًا).
لا يتعلق هذا المقال بالانحياز إلى أحد الجانبين في تلك المناقشة. ما أدهشنا هو شيء أكبر: حقيقة أن ورقة بحثية واحدة عن تكميم المتجهات يمكن أن تحرك 90 مليار دولار من القيمة السوقية تخبرك بمدى أهمية هذه التقنية للبنية التحتية للذكاء الاصطناعي. وسواء كان الأمر يتعلق بضغط ذاكرة التخزين المؤقت KV في محركات الاستدلال أو ضغط الفهارس في قواعد البيانات المتجهة، فإن القدرة على تقليص البيانات عالية الأبعاد مع الحفاظ على الجودة لها آثار هائلة من حيث التكلفة - وهي مشكلة نعمل على حلها، حيث قمنا بدمج RaBitQ في قاعدة بيانات Milvus المتجهة وتحويلها إلى بنية تحتية للإنتاج.
فيما يلي ما سنقوم بتغطيته: لماذا يعد التكميم الكمي المتجه مهمًا جدًا في الوقت الحالي، وكيف يمكن المقارنة بين TurboQuant و RaBitQ، وما هو RaBitQ وكيف يعمل، والعمل الهندسي وراء شحنه داخل Milvus، وكيف يبدو مشهد تحسين الذاكرة الأوسع نطاقًا للبنية التحتية للذكاء الاصطناعي.
ما أهمية التكميم الكمي للناقلات بالنسبة لتكاليف البنية التحتية؟
تكميم المتجهات ليس بالأمر الجديد. الجديد هو مدى حاجة الصناعة إليه بشكل عاجل. على مدار العامين الماضيين، تضخمت معلمات LLM، وتوسعت نوافذ السياق من 4K إلى أكثر من 128K إلى أكثر من 128K إلى الرموز، وأصبحت البيانات غير المهيكلة - النصوص والصور والصوت والفيديو - مدخلات من الدرجة الأولى لأنظمة الذكاء الاصطناعي. كل واحد من هذه الاتجاهات يخلق المزيد من المتجهات عالية الأبعاد التي تحتاج إلى التخزين والفهرسة والبحث. المزيد من المتجهات، المزيد من الذاكرة، المزيد من التكلفة.
إذا كنت تقوم بتشغيل البحث المتجه على نطاق واسع - خطوط أنابيب RAG، ومحركات التوصيات، والاسترجاع متعدد الوسائط - فمن المحتمل أن تكون تكلفة الذاكرة أحد أكبر مشاكل البنية التحتية لديك.
أثناء نشر النموذج، يعتمد كل مكدس استدلالي رئيسي في LLM على ذاكرة التخزين المؤقت KV - تخزين أزواج المفاتيح-القيم المحسوبة مسبقًا حتى لا تقوم آلية الانتباه بإعادة حسابها لكل رمز جديد. هذا ما يجعل استدلال O(n) ممكنًا بدلاً من O(n²). يعتمد عليه كل إطار عمل من vLLM إلى TensorRT-LLM. لكن ذاكرة التخزين المؤقت KV يمكن أن تستهلك ذاكرة وحدة معالجة الرسومات أكثر من أوزان النموذج نفسها. سياقات أطول، وعدد أكبر من المستخدمين المتزامنين، ويتصاعد الأمر بسرعة.
يؤثر الضغط نفسه على قواعد البيانات المتجهة - مليارات من المتجهات عالية الأبعاد الموجودة في الذاكرة، كل منها عبارة عن 32 بت عائم لكل بُعد. يعمل تكميم المتجهات على ضغط هذه المتجهات من 32 بت عائمًا إلى 4 بت أو 2 بت أو حتى 1 بت - مما يقلص الذاكرة بنسبة 90% أو أكثر. سواءً كانت ذاكرة التخزين المؤقت KV في محرك الاستدلال أو الفهارس في قاعدة بيانات المتجهات، فإن العمليات الحسابية الأساسية هي نفسها، والتوفير في التكاليف حقيقي. وهذا هو السبب في أن ورقة بحثية واحدة تبلغ عن اختراق في هذا المجال حرّكت 90 مليار دولار من القيمة السوقية للأسهم.
TurboQuant مقابل RaBitQ: ما الفرق بينهما؟
يعتمد كل من TurboQuant و RaBitQ على نفس التقنية الأساسية: تطبيق دوران عشوائي(تحويل جونسون-ليندنستراوس) على متجهات الإدخال قبل التكميم. يعمل هذا التدوير على تحويل البيانات الموزعة بشكل غير منتظم إلى توزيع موحد يمكن التنبؤ به، مما يسهل عملية التكميم مع انخفاض نسبة الخطأ.
وبعيدًا عن هذا الأساس المشترك، يستهدف البرنامجان مشاكل مختلفة ويتبعان نهجًا مختلفًا:
| TurboQuant | RaBitQ | |
|---|---|---|
| الهدف | ذاكرة التخزين المؤقت KV في استدلال LLM (بيانات سريعة الزوال، لكل طلب) | فهارس المتجهات الدائمة في قواعد البيانات (البيانات المخزنة) |
| النهج | على مرحلتين PolarQuant (مقياس لويد-ماكس القطبي (مقياس لويد-ماكس الكمي القياسي لكل إحداثي) + QJL (تصحيح متبقي 1 بت) | مرحلة واحدة: الإسقاط المفرط المكعب + مقدر مسافة غير متحيز |
| عرض البت | مفاتيح 3 بت، قيم 2 بت (دقة مختلطة) | 1 بت لكل بُعد (مع توفر متغيرات متعددة البتات) |
| الادعاء النظري | معدل تشويه MSE شبه الأمثل | خطأ تقدير المنتج الداخلي الأمثل تقريبيًا (مطابقة الحدود الدنيا لألون-كلارتاغ) |
| حالة الإنتاج | تطبيقات المجتمع؛ لا يوجد إصدار رسمي من Google | تم شحنها في الإصدار Milvus 2.6، وتم اعتمادها من قبل Faiss، VSAG، Elasticsearch |
الفرق الرئيسي للممارسين: يعمل TurboQuant على تحسين ذاكرة التخزين المؤقت العابرة لـ KV داخل محرك الاستدلال، بينما يستهدف RaBitQ الفهارس الدائمة التي تنشئها قاعدة بيانات المتجهات وتجزئتها والاستعلام عنها عبر مليارات المتجهات. بالنسبة لبقية هذه المقالة، سنركز على RaBitQ - الخوارزمية التي قمنا بدمجها وشحنها في الإنتاج داخل Milvus.
ما هي RaBitQ وماذا تقدم؟
إليكم الخلاصة أولاً: في مجموعة بيانات 10 ملايين متجه بأبعاد 768، يقوم RaBitQ بضغط كل متجه إلى 1/32 من حجمه الأصلي مع الحفاظ على نسبة استرجاع أعلى من 94%. في Milvus، يُترجم ذلك إلى معدل إنتاجية استعلام أعلى بمقدار 3.6 مرة من فهرس كامل الدقة. هذا ليس إسقاطًا نظريًا - إنها نتيجة قياسية من Milvus 2.6.
والآن، كيف تصل إلى ذلك.
يضغط التكميم الثنائي التقليدي متجهات FP32 إلى 1 بت لكل بُعد - ضغط 32 ضعفًا. المفاضلة: ينهار الاستدعاء لأنك تخلصت من الكثير من المعلومات. يحافظ RaBitQ (Gao & Long، SIGMOD 2024) على نفس الضغط 32 ضعفًا ولكنه يحافظ على المعلومات المهمة بالفعل للبحث. تثبت نسخة موسعة (Gao & Long، SIGMOD 2025) أن هذا هو الأمثل تقريبيًا، وهو ما يطابق الحدود الدنيا النظرية التي وضعها ألون وكلارتاغ (FOCS 2017).
لماذا تعتبر الزوايا أكثر أهمية من الإحداثيات في الأبعاد العالية؟
الفكرة الرئيسية: في الأبعاد العالية، تكون الزوايا بين المتجهات أكثر استقرارًا وإفادة من قيم الإحداثيات الفردية. هذه نتيجة لتركيز القياس - وهي نفس الظاهرة التي تجعل إسقاطات جونسون-ليندنستراوس العشوائية تعمل.
ما يعنيه هذا عمليًا: يمكنك تجاهل القيم الإحداثية الدقيقة لمتجه عالي الأبعاد والاحتفاظ فقط باتجاهه بالنسبة إلى مجموعة البيانات. تنجو العلاقات الزاوية - وهو ما يعتمد عليه البحث عن أقرب جار في الواقع - من الضغط.
كيف يعمل RaBitQ؟
يحوّل RaBitQ هذه الرؤية الهندسية إلى ثلاث خطوات:
الخطوة 1: التطبيع. توسيط كل متجه بالنسبة إلى مركز مجموعة البيانات وقياسه إلى وحدة الطول. وهذا يحول المشكلة إلى تقدير حاصل الضرب الداخلي بين متجهات الوحدة - مما يسهل تحليلها وتقييدها.
الخطوة 2: تدوير عشوائي + إسقاط المكعب الزائد. قم بتطبيق مصفوفة متعامدة عشوائية (تدوير عشوائي (تدوير من نوع جونسون-ليندنستراوس) لإزالة التحيز نحو أي محور. أسقط كل متجه تم تدويره على أقرب رأس من {±1/√D}^D hypercube. ينهار كل بُعد إلى بت واحد. النتيجة: رمز ثنائي D بت لكل متجه.
الخطوة 3: تقدير المسافة غير المتحيزة. أنشئ مُقدِّرًا لحاصل الضرب الداخلي بين الاستعلام والمتجه الأصلي (غير المتكافئ). يمكن إثبات أن المقدر غير متحيز مع خطأ محدود ب O(1/√D). بالنسبة إلى المتجهات ذات 768 بُعدًا، يحافظ هذا على نسبة استرجاع أعلى من 94%.
يقلل حساب المسافة بين المتجهات الثنائية إلى عمليات "بت وايز + بوب كاونت" - وهي عمليات تنفذها وحدات المعالجة المركزية الحديثة في دورة واحدة. هذا ما يجعل RaBitQ سريعًا، وليس فقط صغيرًا.
لماذا يعتبر RaBitQ عملياً وليس نظرياً فقط؟
- لا يحتاج إلى تدريب. تطبيق التدوير، والتحقق من العلامات. لا يوجد تحسين تكراري، ولا تعلم دفتر الرموز. وقت الفهرسة قابل للمقارنة مع تكميم المنتج.
- صديقة للأجهزة. حساب المسافة عبارة عن حساب المسافة بحساب البتات و + عدد البوب. تحتوي وحدات المعالجة المركزية الحديثة (Intel IceLake+ وAMD Zen 4+) على تعليمات AVX512VPOPCNTDQ مخصصة. يعمل التقدير أحادي المتجه أسرع 3 مرات من جداول البحث PQ.
- مرونة متعددة البتات. تدعم مكتبة RaBitQ مكتبة RaBitQ متغيرات تتجاوز 1 بت: تحقق 4 بت استرجاعًا بنسبة 90٪ تقريبًا، و5 بت بنسبة 95٪ تقريبًا، و7 بت بنسبة 99٪ تقريبًا - كل ذلك دون إعادة ترتيب.
- قابلة للتركيب. يتم توصيلها بهياكل الفهرس الحالية مثل فهارس IVF والرسوم البيانية HNSW، وتعمل مع FastScan لحساب المسافة على دفعات.
من الورق إلى الإنتاج: ما بنيناه لشحن RaBitQ في Milvus
إن كود RaBitQ الأصلي هو نموذج أولي بحثي لجهاز واحد. يتطلب جعله يعمل عبر مجموعة موزعة مع التجزئة وتجاوز الفشل والاستيعاب في الوقت الحقيقي حل أربع مشاكل هندسية. في Zilliz، ذهبنا إلى ما هو أبعد من مجرد تنفيذ الخوارزمية - فقد امتد العمل إلى تكامل المحرك، وتسريع الأجهزة، وتحسين الفهرس، وضبط وقت التشغيل لتحويل RaBitQ إلى قدرة على المستوى الصناعي داخل Milvus. يمكنك العثور على مزيد من التفاصيل في هذه المدونة أيضًا: نقل ضغط المتجهات إلى أقصى الحدود: كيف تخدم Milvus 3 أضعاف الاستعلامات باستخدام RaBitQ
جعل RaBitQ جاهزاً للتوزيع
لقد قمنا بدمج RaBitQ مباشرةً في Knowhere، محرك البحث الأساسي في Milvus - ليس كمكوِّن إضافي، ولكن كنوع فهرس أصلي مع واجهات موحدة. وهو يعمل مع بنية ميلفوس الموزعة الكاملة: التجزئة، والتقسيم، والتوسع الديناميكي، وإدارة التجميع.
التحدي الرئيسي: جعل دفتر الترميز الكمي (مصفوفة التدوير، ومتجهات المركز، ومعلمات القياس) مدركًا للتجزئة، بحيث يقوم كل جزء ببناء وتخزين حالة التجزئة الخاصة به. إن عمليات إنشاء الفهرس وعمليات الدمج وموازنة التحميل كلها تفهم نوع الفهرس الجديد أصلاً.
الضغط على كل دورة من Popcount
تأتي سرعة RaBitQ من Popcount - عدّ مجموعة البتات في المتجهات الثنائية. الخوارزمية سريعة بطبيعتها، ولكن مقدار الإنتاجية التي تحصل عليها يعتمد على مدى جودة استخدامك للأجهزة. لقد أنشأنا مسارات كود SIMD مخصصة لكل من بنيات الخوادم السائدة:
- x86 (Intel IceLake+ Intel IceLake +/ AMD Zen 4+): تقوم تعليمات VPOPCNTDQ الخاصة بـ AVX-512 بحساب عدد المنبثقة عبر عدة سجلات 512 بت بالتوازي. تتم إعادة هيكلة الحلقات الداخلية لـ Knowhere لتجميع حسابات المسافة الثنائية في أجزاء بعرض SIMD، مما يزيد من الإنتاجية.
- ARM (جرافيتون، أمبير): تعليمات SVE (ملحق المتجهات القابلة للتطوير) لنفس نمط عدد المنبثقة المتوازي - وهو أمر بالغ الأهمية لأن مثيلات ARM شائعة بشكل متزايد في عمليات النشر السحابية المحسّنة من حيث التكلفة.
التخلص من نفقات وقت التشغيل الزائدة
يحتاج RaBitQ إلى معلمات الفاصلة العائمة الإضافية في وقت الاستعلام: النواة المركزية لمجموعة البيانات، ومعايير كل متجه، والحاصل الداخلي بين كل متجه كمي ومتجهه الأصلي (يستخدمه مقدر المسافة). يضيف حساب هذه المعلمات لكل استعلام وقت استجابة. تخزين المتجهات الأصلية كاملةً يتعارض مع الغرض من الضغط.
الحل الذي نقدمه: حساب هذه المعلمات مسبقًا واستمرارها أثناء إنشاء الفهرس، وتخزينها مؤقتًا إلى جانب الرموز الثنائية. إن النفقات الزائدة للذاكرة صغيرة (عدد قليل من العوامات لكل متجه)، لكنها تلغي الحساب لكل طلب وتحافظ على استقرار زمن الاستجابة في ظل التزامن العالي.
IVF_RABITQ: الفهرس الذي تنشره بالفعل
بدءًا من الإصدار Milvus 2.6، نقوم بشحن IVF_RABITQ - فهرس الملف المقلوب + تكميم RaBitQ. يعمل البحث على مرحلتين:
- البحث الخشن (IVF). يقسم K-means مساحة المتجه إلى مجموعات. في وقت الاستعلام، يتم مسح المجموعات الأقرب إلى nprobe الأقرب فقط.
- التسجيل الدقيق (RaBitQ). داخل كل مجموعة، يتم تقدير المسافات باستخدام رموز 1 بت ومُقدِّر غير متحيز. يقوم Popcount بالرفع الثقيل.
النتائج على مجموعة بيانات ذات 768 بُعدًا مكونة من 10 ملايين متجه:
| المتري | IVF_FLAT (خط الأساس) | IVF_RABITQ | IVF_RABITQ + تنقيح SQ8 |
|---|---|---|---|
| الاسترجاع | 95.2% | 94.7% | ~95% |
| QPS | 236 | 864 | - |
| بصمة الذاكرة | 32 بت/محددة | 1 بت/محددة (حوالي 3% من الأصل) | ~25% من الأصل |
بالنسبة لأحمال العمل التي لا يمكنها تحمل حتى فجوة استدعاء بنسبة 0.5%، تضيف معلمة Refine_type مسارًا ثانيًا لتسجيل النقاط: SQ6 أو SQ8 أو SQ8 أو FP16 أو BF16 أو FP32. SQ8 هو الخيار الشائع - فهو يستعيد الاستدعاء إلى مستويات IVF_FLAT بربع الذاكرة الأصلية تقريبًا. يمكنك أيضًا تطبيق التكميم القياسي على جانب الاستعلام (SQ1-SQ8) بشكل مستقل، مما يمنحك مفتاحين لضبط مفاضلة زمن الاستجابة - التكلفة - زمن الاستجابة لكل عبء عمل.
كيف يحسّن Milvus الذاكرة إلى ما بعد التكميم الكمي
RaBitQ هي أكثر أدوات الضغط دراماتيكية، ولكنها طبقة واحدة في مكدس تحسين الذاكرة الأوسع نطاقًا:
| الاستراتيجية | ماذا يفعل | التأثير |
|---|---|---|
| تكميم كامل المكدس | SQ8، PQ، RaBitQ بمقايضات مختلفة بين الدقة والتكلفة | تقليل الذاكرة من 4 أضعاف إلى 32 ضعفًا |
| تحسين بنية الفهرس | ضغط الرسم البياني HNSW، وإلغاء تحميل أقراص DiskANN SSD، وإنشاء فهرس آمن لعمليات التشغيل خارج نطاق الخدمة | ذاكرة DRAM أقل لكل فهرس، مجموعات بيانات أكبر لكل عقدة |
| الإدخال/الإخراج المعين بالذاكرة (mmap) | تعيين الملفات المتجهة إلى القرص، وتحميل الصفحات عند الطلب عبر ذاكرة التخزين المؤقت لصفحات نظام التشغيل | مجموعات بيانات بمقياس تيرابايت دون تحميل كل شيء في ذاكرة الوصول العشوائي |
| تخزين متدرج | فصل البيانات الساخنة/الدافئة/الباردة مع جدولة تلقائية | دفع أسعار الذاكرة فقط للبيانات التي يتم الوصول إليها بشكل متكرر |
| التحجيم السحابي الأصلي(زيليز كلاود، ميلفوس المُدار) | التخصيص المرن للذاكرة، والإفراج التلقائي عن الموارد الخاملة | ادفع فقط مقابل ما تستخدمه |
التكميم الكمي الكامل
ضغط RaBitQ البالغ 1 بت ليس مناسبًا لكل أعباء العمل. يقدم ميلفوس مصفوفة تكميم كاملة: SQ8 وتكميم المنتج (PQ) لأحمال العمل التي تحتاج إلى مفاضلة متوازنة بين الدقة والتكلفة، و RaBitQ لأقصى ضغط على مجموعات البيانات الكبيرة جدًا، والتكوينات الهجينة التي تجمع بين طرق متعددة للتحكم الدقيق.
تحسين بنية الفهرس
بالإضافة إلى التكميم الكمي، تعمل Milvus باستمرار على تحسين الذاكرة الزائدة في هياكل الفهرس الأساسية. بالنسبة إلى HNSW، قمنا بتقليل التكرار في قائمة التجاور لتقليل استخدام الذاكرة لكل رسم بياني. يدفع DiskANN كلاً من البيانات المتجهة وهياكل الفهرس إلى SSD، مما يقلل بشكل كبير من الاعتماد على DRAM لمجموعات البيانات الكبيرة. كما قمنا أيضًا بتحسين تخصيص الذاكرة الوسيطة أثناء إنشاء الفهرس لمنع حدوث أعطال في الفهرس عند إنشاء فهارس على مجموعات البيانات التي تقترب من حدود ذاكرة العقدة.
التحميل الذكي للذاكرة
يقوم دعم Milvus's mmap (الإدخال/الإخراج المعين بالذاكرة) بتعيين البيانات المتجهة إلى ملفات القرص، مع الاعتماد على ذاكرة التخزين المؤقت لصفحات نظام التشغيل للتحميل عند الطلب - لا حاجة لتحميل جميع البيانات في الذاكرة عند بدء التشغيل. وبالاقتران مع استراتيجيات التحميل البطيء والتحميل المجزأ التي تمنع حدوث طفرات مفاجئة في الذاكرة، يتيح ذلك التشغيل السلس مع مجموعات البيانات المتجهة على نطاق التيرابايت بتكلفة بسيطة من الذاكرة.
التخزين المتدرج
تمتد بنية التخزين ثلاثية المستويات في Milvus على الذاكرة ومحرك أقراص الحالة الصلبة وتخزين الكائنات: تبقى البيانات الساخنة في الذاكرة لتقليل زمن الوصول، ويتم تخزين البيانات الدافئة مؤقتًا على محرك أقراص الحالة الصلبة لتحقيق التوازن بين الأداء والتكلفة، وتنتقل البيانات الباردة إلى تخزين الكائنات لتقليل النفقات العامة. يتعامل النظام مع جدولة البيانات تلقائيًا - لا يلزم إجراء تغييرات في طبقة التطبيق.
التحجيم السحابي الأصلي
في ظل بنية Milvus الموزعة، يمنع تجزئة البيانات وموازنة التحميل التحميل التحميل الزائد على الذاكرة أحادية العقدة. يقلل تجميع الذاكرة من التجزئة ويحسن الاستخدام. تأخذ Zilliz Cloud (المدارة بالكامل من Milvus) هذا الأمر إلى أبعد من ذلك من خلال الجدولة المرنة لتوسيع نطاق الذاكرة عند الطلب - في وضع عدم وجود خادم، يتم تحرير الموارد الخاملة تلقائيًا، مما يقلل من التكلفة الإجمالية للملكية.
كيف تتراكم هذه الطبقات
هذه التحسينات ليست بدائل - بل تتراكم. يقوم RaBitQ بتقليص المتجهات. يحتفظ DiskANN بالفهرس على SSD. يتجنب Mmap تحميل البيانات الباردة في الذاكرة. يدفع التخزين المتدرج البيانات الأرشيفية إلى تخزين الكائنات. والنتيجة: لا يحتاج النشر الذي يخدم مليارات النواقل إلى ذاكرة وصول عشوائي بمليارات النواقل.
البدء
مع استمرار نمو أحجام بيانات الذكاء الاصطناعي، ستحدد كفاءة قاعدة بيانات المتجهات وتكلفتها بشكل مباشر مدى قدرة تطبيقات الذكاء الاصطناعي على التوسع. سنواصل الاستثمار في البنية التحتية للناقلات عالية الأداء ومنخفضة التكلفة - بحيث يمكن للمزيد من تطبيقات الذكاء الاصطناعي الانتقال من النموذج الأولي إلى الإنتاج.
ميلفوس مفتوح المصدر. لتجربة IVF_RABITQ:
- راجع وثائق IVF_RABITQ للحصول على إرشادات التكوين والضبط.
- اقرأ منشور مدونة تكامل RaBitQ الكامل للحصول على معايير أعمق وتفاصيل التنفيذ.
- انضم إلى مجتمع Milvus Slack لطرح الأسئلة والتعلم من المطورين الآخرين.
- احجز جلسة مجانية في ساعات عمل Milvus المكتبية للتعرف على حالة الاستخدام الخاصة بك.
إذا كنت تفضل تخطي إعداد البنية التحتية، فإن Zilliz Cloud (Milvus المدارة بالكامل من Milvus) تقدم مستوى مجاني مع دعم IVF_RABITQ.
نحن بصدد إجراء مقابلة قادمة مع البروفيسور تشينج لونج (NTU، VectorDB@NTU) والدكتور جيان يانج جاو (ETH زيورخ)، المؤلف الأول لـ RaBitQ، حيث سنتعمق في نظرية التكميم المتجهي وما هو التالي. اطرحوا أسئلتكم في التعليقات.
الأسئلة المتداولة
ما هما TurboQuant و RaBitQ؟
TurboQuant (Google، ICLR 2026) و RaBitQ (Gao & Long، SIGMOD 2024) كلاهما طريقتان لتكميم المتجهات التي تستخدم التدوير العشوائي لضغط المتجهات عالية الأبعاد. يستهدف TurboQuant ضغط ذاكرة التخزين المؤقت KV في الاستدلال LLM، بينما يستهدف RaBitQ الفهارس المتجهة الثابتة في قواعد البيانات. وقد ساهم كلاهما في الموجة الحالية من الاهتمام في تكميم المتجهات، على الرغم من أنهما يحلان مشاكل مختلفة لأنظمة مختلفة.
كيف يحقق RaBitQ تكميم 1 بت دون تدمير الاستدعاء؟
يستغل RaBitQ تركيز القياس في المساحات عالية الأبعاد: الزوايا بين المتجهات أكثر استقرارًا من قيم الإحداثيات الفردية مع زيادة الأبعاد. فهو يقوم بتطبيع المتجهات بالنسبة إلى مركز مجموعة البيانات، ثم يقوم بإسقاط كل متجه على أقرب رأس مكعب هايبر المكعب (اختزال كل بُعد إلى بت واحد). يحافظ مقدر المسافة غير المتحيز مع حد خطأ يمكن إثباته على دقة البحث على الرغم من الضغط.
ما هو IVF_RABITQ ومتى يجب استخدامه؟
IVF_RABITQ هو نوع فهرس متجه في Milvus (متوفر منذ الإصدار 2.6) يجمع بين تجميع الملفات المقلوب مع تكميم RaBitQ 1 بت. يحقق 94.7% من الاسترجاع بنسبة 3.6 أضعاف إنتاجية IVF_FLAT، مع استخدام ذاكرة بنسبة 1/32 تقريبًا من المتجهات الأصلية. استخدمه عندما تحتاج إلى خدمة بحث متجهي واسع النطاق (ملايين إلى مليارات المتجهات) وتكون تكلفة الذاكرة مصدر قلق أساسي - وهو أمر شائع في أعباء عمل البحث متعدد الوسائط والتوصيات والبحث متعدد الوسائط.
كيف يرتبط تكميم المتجهات بضغط ذاكرة التخزين المؤقت KV في أجهزة LLM؟
تتضمن كلتا المشكلتين ضغط متجهات الفاصلة العائمة عالية الأبعاد. تقوم ذاكرة التخزين المؤقت KV بتخزين أزواج المفاتيح-القيم من آلية انتباه المحول؛ عند أطوال السياق الطويلة، يمكن أن يتجاوز أوزان النموذج في استخدام الذاكرة. تعمل تقنيات تكميم المتجهات مثل RaBitQ على تقليل هذه المتجهات إلى تمثيلات منخفضة البت. تنطبق نفس المبادئ الرياضية - تركيز القياس، والتناوب العشوائي، وتقدير المسافة غير المتحيزة - سواء كنت تضغط المتجهات في فهرس قاعدة البيانات أو في ذاكرة التخزين المؤقت KV لمحرك الاستدلال.
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word



