🚀 免費嘗試 Zilliz Cloud,完全托管的 Milvus,體驗速度提升 10 倍!立即嘗試

milvus-logo
LFAI
主頁
  • 概念

術語

自動增量

AutoID 是 primary 欄位的屬性,用來決定是否啟用 primary 欄位的 AutoIncrement。AutoID 的值根據時間戳定義。如需詳細資訊,請參閱create_schema

自動索引

Milvus 根據經驗數據自動為特定欄位決定最適合的索引類型和參數。這非常適合不需要控制特定索引參數的情況。更多資訊請參考add_index

Attu

Attu是 Milvus 的多合一管理工具,大大降低了管理系統的複雜性和成本。

觀鳥者

Birdwatcher是 Milvus 的調試工具,可連接到 etcd,讓您即時監控 Milvus 伺服器的狀態,並作出調整。它也支援 etcd 檔案備份,協助開發人員排除故障。

Bulk Writer

Bulk Writer是 Milvus SDK (例如 PyMilvus、Java SDK) 提供的資料處理工具,設計用來將原始資料集轉換成與 Milvus 相容的格式,以便有效率的匯入。

大量插入

Bulk Insert是一個 API,透過允許在單一要求中匯入多個檔案來增強寫入效能,優化大型資料集的操作。

卡迪納爾

Cardinal 由 Zilliz Cloud 開發,是一種尖端向量搜尋演算法,可提供無與倫比的搜尋品質與效能。憑藉其創新的設計和廣泛的優化,Cardinal 的性能優於 Knowhere 數倍到一個數量級,同時能夠自適應地處理各種不同的生產情境,例如不同的 K 大小、高過濾率、不同的資料分佈等。

頻道

Milvus 使用兩種類型的通道:PC通道和V 通道。每個 PCchannel 對應一個日誌儲存的主題,而每個 VChannel 對應一個集合中的分片。

集合

在 Milvus 中,集合等同於關聯式資料庫管理系統 (RDBMS) 中的資料表。集合是用來儲存和管理實體的主要邏輯物件。如需詳細資訊,請參閱管理集合

依賴

依賴是另一個程式工作所依賴的程式。Milvus 的依賴程式包括 etcd (儲存元資料)、MinIO 或 S3 (物件儲存) 和 Pulsar (管理快照日誌)。如需詳細資訊,請參閱管理依賴

動態模式

動態模式允許您在不修改現有模式的情況下,將具有新欄位的實體插入到集合中。這表示您可以在不知道集合的完整模式的情況下插入資料,並且可以包含尚未定義的欄位。您可以在建立資料集時啟用動態欄位,以啟用這項無模式功能。如需詳細資訊,請參閱啟用動態欄位

嵌入

Milvus 提供內建嵌入功能,可與常用的嵌入提供者一起使用。在 Milvus 中建立資料集之前,您可以使用這些功能為您的資料集製作內嵌,簡化準備資料和向量搜尋的程序。要以實際操作建立嵌入,請參閱使用 PyMilvus 的模型來產生文字嵌入

實體

實體由一組代表真實世界物件的欄位所組成。Milvus 中的每個實體都由一個唯一的主索引鍵來表示。

您可以自訂主索引鍵。如果您沒有手動設定,Milvus 會自動指定實體的主索引鍵。如果您選擇自訂主索引鍵,請注意 Milvus 目前不支援主索引鍵重複。因此,在同一個集合中可能有重複的主索引鍵。如需更多資訊,請參閱插入實體

欄位

Milvus 集合中的欄位等同於 RDBMS 表中的欄位。欄位可以是結構化資料的標量欄位 (例如:數字、字串),或是嵌入向量的向量欄位。

篩選

Milvus 支援標量篩選,透過謂語搜尋,允許您在查詢和搜尋中定義篩選條件,以精簡結果。

篩選搜尋將標量篩選應用於向量搜尋,允許您根據特定條件精煉搜尋結果。如需詳細資訊,請參閱篩選搜尋

Hybrid Search是自 Milvus 2.4.0 以來的混合搜尋 API。您可以搜尋多個向量字段並將它們融合。對於向量搜尋結合標量欄位篩選,稱為「篩選搜尋」。如需詳細資訊,請參閱混合搜尋

索引

向量索引是由原始資料衍生出來的重組資料結構,可以大大加速向量相似性搜尋的過程。Milvus 支援向量字段和標量字段的多種索引類型。如需詳細資訊,請參閱向量索引類型

Kafka-Milvus Connector

Kafka-Milvus Connector是指 Milvus 的 Kafka sink Connector。它允許您將向量資料從 Kafka 串流到 Milvus。

Knowhere

Knowhere是 Milvus 的核心向量執行引擎,它整合了多個向量相似性搜尋程式庫,包括 Faiss、Hnswlib 和 Annoy。Knowhere 的設計也是為了支援異質運算。它可以控制在何種硬體(CPU 或 GPU)上執行索引建立和搜尋請求。這就是 Knowhere 名字的由來 - 知道在哪裡執行作業。

日誌中介

日誌經紀人是一個支援播放的發佈-訂閱系統。它負責流數據的持久化、可靠的異步查詢的執行、事件通知以及查詢結果的返回。當工作節點從系統故障中復原時,它也會確保增量資料的完整性。

日誌快照

日誌快照是二進位日誌,是段中較小的單位,記錄和處理 Milvus 中資料的更新和變更。一個區段的資料會持久化在多個 binlog 中。在 Milvus 中有三種 binlog:InsertBinlog、DeleteBinlog 和 DDLBinlog。如需詳細資訊,請參閱Meta 儲存

日誌訂閱者

日誌訂閱者訂閱日誌序列,以更新本機資料,並以唯讀副本的形式提供服務。

訊息儲存

訊息儲存是 Milvus 的日誌儲存引擎。Milvus 支援 Kafka 或 Pulsa 作為訊息儲存空間。如需詳細資訊,請參閱配置訊息儲存

度量類型

類似度量類型用來量度向量之間的類似性。目前,Milvus 支援 Euclidean distance (L2)、Inner product (IP)、Cosine similarity (COSINE) 和二元公制類型。你可以根據你的情況選擇最合適的度量類型。如需更多資訊,請參閱相似度量

記憶體映射

記憶體映射檔案可將檔案內容直接映射到記憶體中,從而實現高效的資料處理。當記憶體有限且無法載入所有資料時,此功能尤其有用。此技術可提升資料容量,並在某個程度上維持效能。但是,如果資料大大超出記憶體容量,搜尋和查詢速度可能會大幅降低。如需詳細資訊,請參閱MMap-enabled Data Storage

Milvus 備份

Milvus 備份是一個建立資料複本的工具,在資料遺失事件發生後,可用來還原原始資料。

Milvus CDC

Milvus CDC(變更資料擷取) 是一個人性化的工具,可以擷取和同步 Milvus 實體中的增量資料。它透過在源實體和目標實體之間無縫傳輸,確保業務資料的可靠性,讓增量備份和災難恢復變得簡單。

Milvus CLI

Milvus Command-Line Interface(CLI) 是一個命令列工具,支援資料庫連線、資料操作及資料匯入匯出。以Milvus Python SDK 為基礎,它允許使用互動式命令列提示,透過終端機執行指令。

Milvus 遷移

Milvus Migration是一個開放原始碼的工具,目的是方便將不同資料來源的資料遷移至 Milvus 2.x 中。

Milvus 集群

在 Milvus 的叢集部署中,服務由一組節點提供,以實現高可用性和易擴展性。

Milvus 單機

在 Milvus 的單機部署中,包括資料插入、索引建立、向量相似性搜尋等所有作業都在單一流程中完成。

多向量

自 Milvus 2.4.0 起,Milvus 在一個集合中支援多向量字段。如需詳細資訊,請參閱混合搜尋

分區

分區是一個集合的分割。Milvus 支援在實體儲存上,將集合資料分割成多個部分。這個過程稱為分割,每個分割區可以包含多個區段。如需詳細資訊,請參閱管理分割區

分區鍵

欄位的分割區金鑰屬性可根據實體的分割區金鑰值,將實體分割成不同的分割區。這種分組方式可確保分享相同關鍵值的實體儲存在一起,這可讓系統在使用分區關鍵欄位篩選的查詢過程中,繞過不相關的分區,從而加快搜尋作業。如需詳細資訊,請參閱使用分割區金鑰

PC 通道

PChannel 代表實體通道。每個 PC 通道對應一個用於日誌儲存的主題。預設情況下,當 Milvus 集群啟動時,會指派一組 16 個 PChannels 來儲存記錄資料插入、刪除和更新的日誌。如需詳細資訊,請參閱Message Channel-related Configurations

PyMilvus

PyMilvus 是 Milvus 的 Python SDK。它的原始碼是開放源碼,並託管在GitHub 上。您可以彈性選擇 MilvusClient (新版 Python SDK) 或原始 ORM 模組來與 Milvus 對話。

查詢

Query是一個 API,用指定的布林表達式作為過濾器來進行標量過濾。更多資訊請參考Get & Scalar Query

Range search(範圍搜尋)允許您尋找與搜尋向量在指定距離內的向量。如需詳細資訊,請參閱範圍搜尋

模式

Schema 是定義資料類型和資料屬性的元資訊。每個集合都有自己的集合模式,定義集合的所有欄位、自動 ID (主索引鍵) 分配啟用和集合描述。欄位模式也包含在集合模式中,它定義了欄位的名稱、資料類型和其他屬性。如需詳細資訊,請參閱管理模式

Search是一種 API,用來執行向量相似性搜尋的作業,執行時需要向量資料。如需詳細資訊,請參閱單向量搜尋

區段

片段是自動建立的資料檔案,用來儲存插入的資料。一個集合可能包含多個區段,每個區段可以容納許多實體。在向量相似性搜尋期間,Milvus 會檢查每個區段以編譯搜尋結果。

區段有兩種類型:成長型和封閉型。成長中的片段會持續收集新資料,直到達到特定的臨界值或時間限制,之後它就會被封鎖。一旦封鎖,區段就不再接受新資料,並轉移至物件儲存區。同時,傳入的資料會被路由到新的成長區段。達到預先定義的實體限制或超過成長狀態允許的最長時間,都會觸發從成長區段轉換到封閉區段。如需詳細資訊,請參閱設計細節

Spark-Milvus Connector

Spark-Milvus Connector提供 Apache Spark 和 Milvus 的無縫整合,結合 Apache Spark 的資料處理和機器學習 (ML) 功能,以及 Milvus 的向量資料儲存和搜尋功能。

碎片

Milvus 可透過使用分片 (Shard) 將寫入作業分散至多個節點,進而增強資料寫入效能。這可充分利用群集的平行運算能力。

分區可透過指定分區名稱來降低讀取負載,而分片則可將寫入負載分散到多台伺服器。

稀疏向量

稀疏向量使用向量嵌入來表示單字或詞組,其中大部分元素為零,只有一個非零元素表示特定單字的存在。稀疏向量模型(例如 SPLADEv2)在域外知識搜尋、關鍵字感知和可解釋性上優於密集模型。如需詳細資訊,請參閱Sparse Vectors

非結構化資料

非結構化資料,包括影像、視訊、音訊和自然語言,是不遵循預先定義的模型或組織方式的資訊。這種資料類型約佔全球資料的 80%,可使用各種人工智慧 (AI) 和 ML 模型轉換成向量。

VChannel

VChannel代表邏輯通道。每個 VChannel 代表集合中的一個分片。每個集合都會被指派一組 VChannels,用來記錄資料的插入、刪除和更新。VChannels 在邏輯上是分開的,但在實體上卻共用資源。

向量

嵌入向量是非結構化資料的特徵抽象,例如電子郵件、物聯網感測器資料、Instagram 照片、蛋白質結構等。從數學角度來看,嵌入向量是浮點數或二進位數陣列。現代嵌入技術可用於將非結構化資料轉換為嵌入向量。Milvus 自 2.4.0 起支援密集與稀疏向量。

Zilliz 雲端

Zilliz Cloud 上全面管理 Milvus,擁有更多企業級功能和高度優化的效能。