تصنيف تسلسل الحمض النووي على أساس ميلفوس
المؤلف: منغجيا جو، مهندسة بيانات في شركة زيليز، تخرجت من جامعة ماكجيل بدرجة الماجستير في الدراسات المعلوماتية. تشمل اهتماماتها تطبيقات الذكاء الاصطناعي والبحث عن التشابه مع قواعد البيانات المتجهة. وبصفتها عضوًا في مجتمع مشروع Milvus المفتوح المصدر، قدمت وحسّنت العديد من الحلول، مثل نظام التوصيات ونموذج تصنيف تسلسل الحمض النووي. تستمتع بالتحديات ولا تستسلم أبدًا!
يعد تسلسل الحمض النووي مفهومًا شائعًا في كل من البحوث الأكاديمية والتطبيقات العملية، مثل تتبع الجينات، وتحديد الأنواع، وتشخيص الأمراض. وفي حين أن جميع الصناعات تتوق إلى طريقة بحث أكثر ذكاءً وكفاءةً، فقد اجتذب الذكاء الاصطناعي الكثير من الاهتمام خاصةً في المجال البيولوجي والطبي. يساهم المزيد والمزيد من العلماء والباحثين في التعلم الآلي والتعلم العميق في المعلوماتية الحيوية. ولجعل النتائج التجريبية أكثر إقناعًا، فإن أحد الخيارات الشائعة هو زيادة حجم العينة. كما أن التعاون مع البيانات الضخمة في علم الجينوميات يجلب المزيد من إمكانيات الاستخدام في الواقع. ومع ذلك، فإن محاذاة التسلسل التقليدي لها قيود، مما يجعلها غير مناسبة للبيانات الكبيرة. من أجل إجراء مفاضلة أقل في الواقع، يعد استخدام المتجهات خيارًا جيدًا لمجموعة بيانات كبيرة من تسلسلات الحمض النووي.
قاعدة بيانات المتجهات مفتوحة المصدر Milvus صديقة للبيانات الضخمة. فهي قادرة على تخزين ناقلات تسلسلات الحمض النووي وإجراء استرجاع عالي الكفاءة. ويمكن أن تساعد أيضًا في تقليل تكلفة الإنتاج أو البحث. لا يستغرق نظام تصنيف تسلسل الحمض النووي القائم على Milvus سوى أجزاء من الثانية للقيام بتصنيف الجينات. علاوة على ذلك، فإنه يُظهر دقة أعلى من المصنفات الشائعة الأخرى في التعلم الآلي.
يتكون الجين الذي يشفر المعلومات الوراثية من مقطع صغير من تسلسل الحمض النووي، والذي يتكون من 4 قواعد نيوكليوتيدية [A، C، G، T]. ويوجد حوالي 30,000 جين في الجينوم البشري، أي ما يقرب من 3 مليارات زوج من قواعد الحمض النووي، ولكل زوج قاعدة قاعدتين متناظرتين. لدعم الاستخدامات المتنوعة، يمكن تصنيف تسلسلات الحمض النووي إلى فئات مختلفة. من أجل تقليل التكلفة وتسهيل استخدام بيانات تسلسل الحمض النووي الطويل، يتم إدخال k-mer في المعالجة المسبقة للبيانات. وفي الوقت نفسه، يجعل بيانات تسلسل الحمض النووي أكثر تشابهًا مع النص العادي. علاوة على ذلك، يمكن للبيانات المتجهة تسريع عملية الحساب في تحليل البيانات أو التعلم الآلي.
1.png
ك-مير
تُستخدم طريقة k-mer بشكل شائع في المعالجة المسبقة لتسلسل الحمض النووي. وهي تستخرج مقطعًا صغيرًا من الطول k بدءًا من كل قاعدة من التسلسل الأصلي، وبالتالي تحويل تسلسل طويل بطول s إلى (s-k+1) تسلسلات قصيرة بطول k. سيؤدي تعديل قيمة k إلى تحسين أداء النموذج. تُعد قوائم التسلسلات القصيرة أسهل في قراءة البيانات واستخراج السمات وتكوين المتجهات.
تحويل المتجهات
يتم تحويل تسلسلات الحمض النووي إلى متجهات في شكل نص. يصبح التسلسل الذي يتم تحويله بواسطة k-mer قائمة من التسلسلات القصيرة، والتي تبدو كقائمة من الكلمات الفردية في جملة ما. لذلك، يجب أن تعمل معظم نماذج معالجة اللغة الطبيعية مع بيانات تسلسل الحمض النووي أيضًا. يمكن تطبيق منهجيات مماثلة على تدريب النموذج واستخراج السمات والترميز. نظرًا لأن كل نموذج له مزاياه وعيوبه الخاصة، فإن اختيار النماذج يعتمد على ميزة البيانات والغرض من البحث. على سبيل المثال، يقوم CountVectorizer، وهو نموذج كيس من الكلمات، بتنفيذ استخراج الميزات من خلال الترميز المباشر. لا يضع حدًا لطول البيانات، ولكن النتيجة التي يتم إرجاعها أقل وضوحًا من حيث مقارنة التشابه.
يستطيع Milvus إدارة البيانات غير المهيكلة بسهولة واستدعاء معظم النتائج المتشابهة من بين تريليونات المتجهات في غضون متوسط تأخير يبلغ ميلي ثانية. يعتمد بحث التشابه الخاص به على خوارزمية البحث التقريبي لأقرب جار (ANN). هذه الميزات تجعل من Milvus خيارًا رائعًا لإدارة متجهات تسلسلات الحمض النووي، وبالتالي تعزيز تطوير وتطبيقات المعلوماتية الحيوية.
فيما يلي عرض توضيحي يوضح كيفية بناء نظام تصنيف تسلسل الحمض النووي باستخدام Milvus. تتضمن مجموعة البيانات التجريبية 3 كائنات حية و7 عائلات جينية. يتم تحويل جميع البيانات إلى قوائم من التسلسلات القصيرة بواسطة k-mers. باستخدام نموذج CountVectorizer المدرب مسبقًا، يقوم النظام بعد ذلك بترميز بيانات التسلسل إلى متجهات. يوضح مخطط التدفق أدناه هيكل النظام وعمليات الإدراج والبحث.
1.png
جرّب هذا العرض التوضيحي في معسكر ميلفوس التدريبي.
في Milvus، ينشئ النظام مجموعة ويدرج المتجهات المقابلة لتسلسلات الحمض النووي في المجموعة (أو القسم إذا تم تمكينه). عند تلقي طلب استعلام، سيعيد ميلفوس المسافات بين متجه تسلسل الحمض النووي المدخلات والنتائج الأكثر تشابهًا في قاعدة البيانات. يمكن تحديد فئة تسلسل الإدخال والتشابه بين تسلسل الحمض النووي من خلال مسافات المتجه في النتائج.
# Insert vectors to Milvus collection (partition "human")
DNA_human = collection.insert([human_ids, human_vectors], partition_name='human')
# Search topK results (in partition "human") for test vectors
res = collection.search(test_vectors, "vector_field", search_params, limit=topK, partition_names=['human'])
for results in res:
res_ids = results.ids # primary keys of topK results
res_distances = results.distances # distances between topK results & search input
تصنيف تسلسل الحمض النووييمكن أن يشير البحث عن أكثر تسلسلات الحمض النووي تشابهًا في "ملفوس" إلى عائلة الجينات لعينة مجهولة، وبالتالي معرفة وظائفها المحتملة. إذا تم تصنيف التسلسل على أنه GPCRs، فمن المحتمل أن يكون له تأثير في وظائف الجسم. في هذا العرض التوضيحي، نجح نظام Milvus في تحديد العائلات الجينية لتسلسلات الحمض النووي البشري التي تم البحث عنها.
3.png
4.png
التشابه الجيني
يوضح متوسط تشابه تسلسل الحمض النووي بين الكائنات الحية مدى التقارب بين جينوماتها. يبحث البرنامج التجريبي في بيانات الإنسان عن أكثر تسلسلات الحمض النووي تشابهًا مع تسلسلات الشمبانزي والكلب على التوالي. ثم يحسب ويقارن متوسط مسافات الضرب الداخلي (0.97 للشمبانزي و 0.70 للكلب)، مما يثبت أن الشمبانزي يشترك مع الإنسان في جينات أكثر تشابهًا من الكلب. مع وجود بيانات أكثر تعقيدًا وتصميم نظام أكثر تعقيدًا، فإن برنامج Milvus قادر على دعم الأبحاث الجينية حتى على مستوى أعلى.
search_params = {"metric_type": "IP", "params": {"nprobe": 20}}
الأداء
يقوم العرض التوضيحي بتدريب نموذج التصنيف باستخدام 80% من بيانات العينة البشرية (3629 في المجموع) ويستخدم الباقي كبيانات اختبار. وهو يقارن أداء نموذج تصنيف تسلسل الحمض النووي الذي يستخدم Milvus مع النموذج الذي يعمل بواسطة Mysql و5 مصنفات شائعة للتعلم الآلي. يتفوق النموذج القائم على Milvus على نظرائه في الدقة.
from sklearn.model_selection import train_test_split
X, y = human_sequence_kmers, human_labels
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
1.png
مع تطور تكنولوجيا البيانات الضخمة، ستلعب متجهات تسلسل الحمض النووي دورًا أكثر أهمية في الأبحاث والممارسات الوراثية. إلى جانب المعرفة المهنية في مجال المعلوماتية الحيوية، يمكن للدراسات ذات الصلة أن تستفيد بشكل أكبر من مشاركة ناقلات تسلسل الحمض النووي. لذلك، يمكن أن تقدم ميلفوس نتائج أفضل في الممارسة العملية. ووفقًا للسيناريوهات المختلفة واحتياجات المستخدم، يُظهر البحث عن التشابه وحساب المسافة المدعوم من ميلفوس إمكانات كبيرة وإمكانيات عديدة.
- دراسة التسلسلات المجهولة: وفقًا لبعض الباحثين، يمكن أن يضغط المتجه بيانات تسلسل الحمض النووي. وفي الوقت نفسه، يتطلب جهدًا أقل لدراسة بنية ووظيفة وتطور تسلسلات الحمض النووي غير المعروفة. يمكن لميلفوس تخزين واسترجاع عدد كبير من نواقل تسلسل الحمض النووي دون فقدان الدقة.
- تكييف الأجهزة: مقيدًا بالخوارزميات التقليدية لمحاذاة التسلسل، بالكاد يمكن أن يستفيد البحث عن التشابه من تحسين الجهاز(وحدة المعالجةالمركزية/وحدةالمعالجة المركزية/وحدة معالجة الرسومات). يعمل برنامج Milvus، الذي يدعم كلاً من الحوسبة العادية لوحدة المعالجة المركزية وتسريع وحدة معالجة الرسومات، على حل هذه المشكلة باستخدام خوارزمية الجار الأقرب التقريبي.
- الكشف عن الفيروسات وتتبع أصولها: قارن العلماء تسلسل الجينوم وأبلغوا أن فيروس COVID19 الذي يُحتمل أن يكون من أصل خفاش ينتمي إلى فيروس سارس-COV. وبناءً على هذا الاستنتاج، يمكن للباحثين توسيع حجم العينة للحصول على المزيد من الأدلة والأنماط.
- تشخيص الأمراض: سريريًا، يمكن للأطباء مقارنة تسلسل الحمض النووي بين المرضى والمجموعة السليمة لتحديد الجينات المتغيرة التي تسبب الأمراض. من الممكن استخراج السمات وترميز هذه البيانات باستخدام خوارزميات مناسبة. يستطيع ميلفوس إرجاع المسافات بين المتجهات، والتي يمكن أن تكون مرتبطة ببيانات الأمراض. وبالإضافة إلى المساعدة في تشخيص المرض، يمكن لهذا التطبيق أن يساعد أيضًا في استلهام دراسة العلاج المستهدف.
Milvus هو أداة قوية قادرة على تشغيل مجموعة واسعة من تطبيقات الذكاء الاصطناعي والبحث عن تشابه المتجهات. لمعرفة المزيد عن المشروع، اطلع على الموارد التالية:
- اقرأ مدونتنا.
- تفاعل مع مجتمعنا مفتوح المصدر على Slack.
- استخدم أو ساهم في قاعدة بيانات المتجهات الأكثر شعبية في العالم على GitHub.
- اختبار تطبيقات الذكاء الاصطناعي ونشرها بسرعة من خلال معسكرنا التدريبي الجديد.
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word