DNA 序列分類
本教學示範如何使用開源向量資料庫 Milvus 建立 DNA 序列分類模型。
所使用的 ML 模型和第三方軟體包括
- CountVectorizer
- MySQL
- 湯熙
DNA 序列是基因溯源、物種鑑定、疾病診斷等眾多領域的流行概念。各行各業都在渴求更智慧、更有效率的研究方法,而人工智慧尤其在生物和醫學領域吸引了許多人的注意。越來越多的科學家和研究人員在生物資訊學領域的機器學習和深度學習方面做出了貢獻。為了讓實驗結果更具說服力,一個常見的選擇就是增加樣本量。基因組學中與大數據的合作,為現實中的應用帶來更多可能性。然而,傳統的序列比對有其限制,使其不適用於大型資料集。為了在現實中少做取捨,對於 DNA 序列的大型資料集,向量化是一個不錯的選擇。
在本教程中,您將學習如何建立 DNA 序列分類模型。本教學使用 CountVectorizer 來擷取 DNA 序列的特徵,並將其轉換成向量。之後,這些向量會儲存在 Milvus 中,而其對應的 DNA 類別則會儲存在 MySQL 中。使用者可以在 Milvus 中進行向量相似性搜尋,並從 MySQL 中調出對應的 DNA 分類。
DNA