詞幹
stemmer
篩選器可將字彙還原為其基本或字根形式 (稱為詞幹),使不同轉折中具有類似涵義的字彙更容易匹配。stemmer
過濾器支援多種語言,可在各種語言環境中進行有效的搜尋與索引。
設定
stemmer
篩選器是 Milvus 的自訂篩選器。若要使用它,請在篩選器設定中指定"type": "stemmer"
,以及language
參數,以選擇所需的語言進行詞幹處理。
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stemmer", # Specifies the filter type as stemmer
"language": "english", # Sets the language for stemming to English
}],
}
stemmer
過濾器接受下列可設定的參數。
參數 | 說明 |
---|---|
| 指定詞幹處理的語言。支援的語言包括 |
stemmer
過濾器會對 tokenizer 產生的詞彙進行操作,因此必須與 tokenizer 結合使用。
定義analyzer_params
之後,您可以在定義集合模式時,將它們套用到VARCHAR
欄位。這可讓 Milvus 使用指定的分析器來處理該欄位中的文字,以進行有效率的標記化和過濾。詳情請參閱範例使用。
輸出範例
以下是stemmer
過濾器處理文字的範例。
原始文字。
"running runs looked ran runner"
預期輸出(含language: "english"
)。
["run", "run", "look", "ran", "runner"]