🚀 免費嘗試 Zilliz Cloud,完全托管的 Milvus,體驗速度提升 10 倍!立即嘗試

milvus-logo
LFAI
主頁
  • 使用者指南
  • Home
  • Docs
  • 使用者指南

  • 模式與資料欄位

  • 分析器

  • 內建分析儀

  • 英語

英文

Milvus 中的english 分析器專為處理英文文字而設計,並應用特定語言的符號化和過濾規則。

定義

english 分析器使用下列元件。

  • 標記化器:使用 standard tokenizer將文字分割為離散的單字單位。

  • 篩選器:包含多種篩選器,可進行全面的文字處理。

    • lowercase:將所有字元轉換為小寫,以便進行不區分大小寫的搜尋。

    • stemmer:將字詞縮減為字根形式,以支援更廣泛的匹配 (例如,「running」變為「run」)。

    • stop_words:移除常見的英文停止詞,以聚焦於文字中的關鍵詞。

english 分析器的功能等同於下列自訂分析器設定。

analyzer_params = {
    "tokenizer": "standard",
    "filter": [
        "lowercase",
        {
            "type": "stemmer",
            "language": "english"
        },{
            "type": "stop",
            "stop_words": "_english_",
        }
    ]
}

配置

要將english 分析器套用到欄位,只要在analyzer_params 中將type 設定為english ,並視需要加入可選參數即可。

analyzer_params = {
    "type": "english",
}

english 分析器接受下列可選參數:

參數

說明

stop_words

包含停止詞清單的陣列,這些停止詞將從標記化中移除。預設為_english_ ,內建的常見英文停止詞集。

自訂停止詞配置範例。

analyzer_params = {
    "type": "english",
    "stop_words": ["a", "an", "the"]
}

定義analyzer_params 之後,您可以在定義集合模式時,將它們套用到VARCHAR 欄位。這可讓 Milvus 使用指定的分析器處理該欄位中的文字,以進行有效的標記化和過濾。詳情請參閱使用範例

輸出範例

以下是english 分析器如何處理文字。

原始文字

"The Milvus vector database is built for scale!"

預期輸出

["milvus", "vector", "databas", "built", "scale"]
目錄

免費嘗試托管的 Milvus

Zilliz Cloud 無縫接入,由 Milvus 提供動力,速度提升 10 倍。

開始使用
反饋

這個頁面有幫助嗎?