🚀 جرب Zilliz Cloud، الـ Milvus المدارة بالكامل، مجاناً — تجربة أداء أسرع بـ 10 أضعاف! جرب الآن>>

milvus-logo
LFAI
  • Home
  • Blog
  • بناء مساعد كتابة مدعوم بالذكاء الاصطناعي لمكتب WPS

بناء مساعد كتابة مدعوم بالذكاء الاصطناعي لمكتب WPS

  • Scenarios
July 28, 2020
milvus

WPS Office هي أداة إنتاجية طورتها شركة Kingsoft ولديها أكثر من 150 مليون مستخدم حول العالم. قام قسم الذكاء الاصطناعي (AI) في الشركة ببناء مساعد كتابة ذكي من الصفر باستخدام خوارزميات المطابقة الدلالية مثل التعرف على النوايا وتجميع النصوص. وتوجد الأداة كتطبيق ويب وبرنامج WeChat مصغر يساعد المستخدمين على إنشاء الخطوط العريضة والفقرات الفردية والمستندات بأكملها بسرعة بمجرد إدخال عنوان واختيار ما يصل إلى خمس كلمات رئيسية.

ويستخدم محرك التوصيات الخاص بمساعد الكتابة محرك "ميلفوس"، وهو محرك بحث تشابه مفتوح المصدر، لتشغيل وحدة معالجة المتجهات الأساسية. سنستكشف أدناه عملية إنشاء مساعد الكتابة الذكي لمكاتب WPS Office، بما في ذلك كيفية استخراج الميزات من البيانات غير المهيكلة بالإضافة إلى الدور الذي يلعبه Milvus في تخزين البيانات وتشغيل محرك التوصيات الخاص بالأداة.

الانتقال إلى:

فهم البيانات النصية غير المنظمة

على غرار أي مشكلة حديثة تستحق الحل، يبدأ بناء مساعد الكتابة WPS ببيانات فوضوية. عشرات الملايين من المستندات النصية الكثيفة التي يجب أن تُستخرج منها ميزات ذات معنى، لنكون أكثر دقة. لفهم مدى تعقيد هذه المشكلة، فكّر في كيفية قيام صحفيين من وسيلتين إخباريتين مختلفتين بإعداد تقرير عن نفس الموضوع.

في حين أن كلاهما سيلتزمان بالقواعد والمبادئ والعمليات التي تحكم بنية الجملة، إلا أنهما سيقومان باختيارات مختلفة للكلمات، وسيقومان بإنشاء جمل متفاوتة الطول، وسيستخدمان هياكل المقالات الخاصة بهما لسرد قصص متشابهة (أو ربما متباينة). على عكس مجموعات البيانات المهيكلة ذات العدد الثابت من الأبعاد، تفتقر أجسام النصوص بطبيعتها إلى البنية لأن البنية التي تحكمها مرنة للغاية. من أجل العثور على المعنى، يجب استخراج الميزات القابلة للقراءة الآلية من مجموعة غير منظمة من المستندات. لكن أولاً، يجب تنظيف البيانات.

هناك مجموعة متنوعة من الطرق لتنظيف البيانات النصية، والتي لن تتناول هذه المقالة أيًا منها بعمق. ومع ذلك، فإن هذه خطوة مهمة تسبق معالجة البيانات، ويمكن أن تشمل إزالة العلامات، وإزالة الأحرف المعجمة، وتوسيع الانقباضات، وإزالة الأحرف الخاصة، وإزالة الكلمات المتوقفة، وغير ذلك. يمكن الاطلاع على شرح مفصّل لطرق المعالجة المسبقة وتنظيف البيانات النصية هنا.

استخدام نموذج TFIDF لتعظيم استخراج الميزات

للبدء في فهم البيانات النصية غير المهيكلة، تم تطبيق نموذج تكرار المصطلح-تكرار المستند العكسي (TFIDF) على مجموعة النصوص التي يستخرج منها مساعد الكتابة في WPS. يستخدم هذا النموذج مزيجًا من مقياسين، تكرار المصطلح وتكرار المستند العكسي، لإعطاء كل كلمة داخل المستند قيمة TFIDF. يمثل تكرار المصطلح (TF) العدد الخام للمصطلح في المستند مقسومًا على العدد الإجمالي للمصطلحات في المستند، بينما يمثل تكرار المستند العكسي (IDF) عدد المستندات في مجموعة المستندات مقسومًا على عدد المستندات التي يظهر فيها المصطلح.

ويوفر حاصل ضرب TF و IDF مقياسًا لمدى تكرار ظهور المصطلح في المستند مضروبًا في مدى تفرّد الكلمة في مجموعة المستندات. في نهاية المطاف، تُعد قيم TFIDF مقياسًا لمدى ارتباط كلمة ما بمستند ضمن مجموعة من المستندات. يتم فرز المصطلحات حسب قيم TFIDF، ويمكن إعطاء المصطلحات ذات القيم المنخفضة (أي الكلمات الشائعة) وزنًا أقل عند استخدام التعلّم العميق لاستخراج السمات من مجموعة المستندات.

استخراج الميزات باستخدام نموذج التعلّم العميق ثنائي الاتجاه LSTM-CNNs-CRF ثنائي الاتجاه

باستخدام مزيج من الذاكرة طويلة المدى ثنائية الاتجاه (BLSTM) والشبكات العصبية التلافيفية (CNN) والحقول العشوائية الشرطية (CRF) يمكن استخراج تمثيلات على مستوى الكلمات والأحرف من مجموعة النصوص. يعمل نموذج BLSTM-CNNs-CRF المستخدم في بناء مساعد الكتابة المكتبية WPS Office على النحو التالي:

  1. سي إن إن: يتم استخدام تضمينات الأحرف كمدخلات لشبكة CNN، ثم يتم استخراج تراكيب الكلمات ذات الصلة من الناحية الدلالية (أي البادئة أو اللاحقة) وترميزها إلى متجهات تمثيل على مستوى الحرف.
  2. BLSTM: يتم ربط المتجهات على مستوى الأحرف مع متجهات تضمين الكلمات ثم يتم إدخالها في شبكة BLSTM. يتم تقديم كل تسلسل إلى الأمام والخلف إلى حالتين مخفيتين منفصلتين لالتقاط المعلومات السابقة والمستقبلية.
  3. CRF: يتم تغذية متجهات الخرج من BLSTM إلى طبقة CRF لفك تشفير أفضل تسلسل للتسمية بشكل مشترك.

أصبحت الشبكة العصبية الآن قادرة على استخراج وتصنيف الكيانات المسماة من نص غير منظم. وتسمى هذه العملية بالتعرّف على الكيانات المسماة (NER) وتتضمن تحديد وتصنيف فئات مثل أسماء الأشخاص والمؤسسات والمواقع الجغرافية وغيرها. تلعب هذه الكيانات دورًا مهمًا في فرز البيانات واستدعائها. ومن هنا يمكن استخلاص الجمل والفقرات والملخصات الرئيسية من مجموعة البيانات.

إنشاء تضمينات الجمل باستخدام Infersent

تُستخدم طريقةInfersent، وهي طريقة تضمين جمل خاضعة للإشراف صممها فيسبوك تقوم بتضمين جمل كاملة في فضاء متجه، لإنشاء متجهات يتم إدخالها في قاعدة بيانات Milvus. وقد تم تدريب Infersent باستخدام مجموعة ستانفورد للاستدلال على اللغة الطبيعية (SNLI)، والتي تحتوي على 570 ألف زوج من الجمل التي تمت كتابتها وتسميتها من قبل البشر. يمكن العثور على معلومات إضافية حول كيفية عمل Infersent هنا.

تخزين المتجهات والاستعلام عنها باستخدام Milvus

ميلفوس هو محرك بحث تشابه مفتوح المصدر يدعم إضافة وحذف وتحديث والبحث شبه الفوري عن التضمينات على نطاق تريليون بايت. لتحسين أداء الاستعلام، يسمح Milvus بتحديد نوع فهرس لكل حقل متجه. يستخدم المساعد الذكي لمكتب WPS Office فهرس IVF_FLAT، وهو نوع الفهرس الأساسي للملف المقلوب (IVF) حيث تعني كلمة "مسطح" أن المتجهات مخزنة بدون ضغط أو تكميم. يعتمد التجميع على IndexFlat2، والذي يستخدم البحث الدقيق للمسافة L2.

على الرغم من أن IVF_FLAT لديه معدل استرجاع استعلام بنسبة 100%، إلا أن افتقاره للضغط يؤدي إلى سرعات استعلام بطيئة نسبيًا. تُستخدم وظيفة التقسيم في Milvus لتقسيم البيانات إلى أجزاء متعددة من التخزين الفعلي بناءً على قواعد محددة مسبقًا، مما يجعل الاستعلامات أسرع وأكثر دقة. عند إضافة المتجهات إلى ميلفوس، تحدد العلامات القسم الذي يجب إضافة البيانات إليه. تستخدم استعلامات البيانات المتجهة علامات لتحديد القسم الذي يجب تنفيذ الاستعلام عليه. يمكن تقسيم البيانات بشكل أكبر إلى أجزاء داخل كل قسم لزيادة تحسين السرعة.

يستخدم مساعد الكتابة الذكي أيضًا مجموعات Kubernetes، مما يسمح بتشغيل حاويات التطبيقات عبر أجهزة وبيئات متعددة، بالإضافة إلى MySQL لإدارة البيانات الوصفية.

الذكاء الاصطناعي لا يحل محل الكتّاب، بل يساعدهم على الكتابة

يعتمد مساعد الكتابة من Kingsoft لـ WPS Office على نظام Milvus لإدارة قاعدة بيانات تضم أكثر من مليوني مستند والاستعلام عنها. يتسم النظام بمرونة عالية، وهو قادر على إجراء بحث في الوقت الفعلي تقريباً على مجموعات بيانات بمقياس تريليون. وتكتمل الاستعلامات في 0.2 ثانية في المتوسط، مما يعني أنه يمكن إنشاء مستندات كاملة على الفور تقريباً باستخدام عنوان أو بضع كلمات رئيسية فقط. على الرغم من أن الذكاء الاصطناعي لا يحل محل الكُتّاب المحترفين، إلا أن التكنولوجيا الموجودة اليوم قادرة على زيادة عملية الكتابة بطرق جديدة ومثيرة للاهتمام. المستقبل غير معروف، ولكن على الأقل يمكن للكتّاب أن يتطلعوا إلى طرق أكثر إنتاجية وأقل صعوبة بالنسبة للبعض في "وضع القلم على الورق".

تم استخدام المصادر التالية في هذه المقالة:

اقرأ قصص المستخدمين الآخرين لمعرفة المزيد حول صنع الأشياء باستخدام ميلفوس.

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    استمر في القراءة