英文
Milvus 中的english
分析器專為處理英文文字而設計,並應用特定語言的符號化和過濾規則。
定義
english
分析器使用下列元件。
標記化器:使用
standard tokenizer
將文字分割為離散的單字單位。篩選器:包含多種篩選器,可進行全面的文字處理。
lowercase
:將所有字元轉換為小寫,以便進行不區分大小寫的搜尋。stemmer
:將字詞縮減為字根形式,以支援更廣泛的匹配 (例如,「running」變為「run」)。stop_words
:移除常見的英文停止詞,以聚焦於文字中的關鍵詞。
english
分析器的功能等同於下列自訂分析器設定。
analyzer_params = {
"tokenizer": "standard",
"filter": [
"lowercase",
{
"type": "stemmer",
"language": "english"
},{
"type": "stop",
"stop_words": "_english_",
}
]
}
配置
要將english
分析器套用到欄位,只要在analyzer_params
中將type
設定為english
,並視需要加入可選參數即可。
analyzer_params = {
"type": "english",
}
english
分析器接受下列可選參數:
參數 | 說明 |
---|---|
| 包含停止詞清單的陣列,這些停止詞將從標記化中移除。預設為 |
自訂停止詞配置範例。
analyzer_params = {
"type": "english",
"stop_words": ["a", "an", "the"]
}
定義analyzer_params
之後,您可以在定義集合模式時,將它們套用到VARCHAR
欄位。這可讓 Milvus 使用指定的分析器處理該欄位中的文字,以進行有效的標記化和過濾。詳情請參閱使用範例。
輸出範例
以下是english
分析器如何處理文字。
原始文字。
"The Milvus vector database is built for scale!"
預期輸出。
["milvus", "vector", "databas", "built", "scale"]