🚀 免費嘗試 Zilliz Cloud,完全托管的 Milvus,體驗速度提升 10 倍!立即嘗試

milvus-logo
LFAI
主頁
  • 使用者指南
  • Home
  • Docs
  • 使用者指南

  • 模式與資料欄位

  • 分析器

  • 濾波器

  • 分解器

分解詞

decompounder 篩選器會根據指定的字典,將複合詞分割成個別元件,讓您更容易搜尋複合詞的部分內容。此過濾器對於經常使用複合詞的語言 (例如德文) 特別有用。

設定

decompounder 篩選器是 Milvus 的自訂篩選器。要使用它,請在過濾器設定中指定"type": "decompounder" ,以及提供要識別的詞組字典的word_list 參數。

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "decompounder", # Specifies the filter type as decompounder
        "word_list": ["dampf", "schiff", "fahrt", "brot", "backen", "automat"],
    }],
}

decompounder 過濾器接受下列可設定的參數。

參數

說明

word_list

用於分割複合詞的單字元件清單。此字典決定如何將複合詞分解為個別詞彙。

decompounder 過濾器會對由 tokenizer 產生的詞彙進行操作,因此必須與 tokenizer 結合使用。

定義analyzer_params 之後,您可以在定義集合模式時,將它們套用到VARCHAR 欄位。這可讓 Milvus 使用指定的分析器來處理該欄位中的文字,以進行有效率的標記化和過濾。詳情請參閱範例使用

輸出範例

以下是decompounder 過濾器處理文字的範例。

原始文字

"dampfschifffahrt brotbackautomat"

預期輸出(含word_list: ["dampf", "schiff", "fahrt", "brot", "backen", "automat"])。

["dampf", "schiff", "fahrt", "brotbackautomat"]

免費嘗試托管的 Milvus

Zilliz Cloud 無縫接入,由 Milvus 提供動力,速度提升 10 倍。

開始使用
反饋

這個頁面有幫助嗎?