Clasificación de secuencias de ADN
Este tutorial muestra cómo utilizar Milvus, la base de datos de vectores de código abierto, para construir un modelo de clasificación de secuencias de ADN.
El modelo ML y el software de terceros utilizados incluyen:
- CountVectorizer
- MySQL
- Towhee
La secuencia de ADN es un concepto popular en la trazabilidad de genes, la identificación de especies, el diagnóstico de enfermedades y muchas más áreas. Mientras que todas las industrias están hambrientas de un método de investigación más inteligente y eficiente, la inteligencia artificial ha atraído mucha atención, especialmente en los ámbitos biológico y médico. Cada vez más científicos e investigadores contribuyen al aprendizaje automático y al aprendizaje profundo en el campo de la bioinformática. Para que los resultados experimentales sean más convincentes, una opción común es aumentar el tamaño de la muestra. La colaboración con big data en genómica aporta más posibilidades de aplicación en la realidad. Sin embargo, la alineación de secuencias tradicional tiene limitaciones, lo que la hace inadecuada para grandes conjuntos de datos. Para hacer menos concesiones en la realidad, la vectorización es una buena opción para un gran conjunto de datos de secuencias de ADN.
En este tutorial, aprenderá a construir un modelo de clasificación de secuencias de ADN. Este tutorial utiliza CountVectorizer para extraer características de secuencias de ADN y convertirlas en vectores. A continuación, estos vectores se almacenan en Milvus y sus correspondientes clases de ADN se almacenan en MySQL. Los usuarios pueden realizar una búsqueda de similitud de vectores en Milvus y recuperar la clasificación de ADN correspondiente de MySQL.
ADN