Стеммер
Фильтр stemmer
сокращает слова до их базовой или корневой формы (так называемый стемминг), облегчая поиск слов со схожими значениями в различных склонениях. Фильтр stemmer
поддерживает несколько языков, обеспечивая эффективный поиск и индексирование в различных языковых контекстах.
Конфигурация
Фильтр stemmer
- это пользовательский фильтр в Milvus. Чтобы использовать его, укажите "type": "stemmer"
в конфигурации фильтра, а также параметр language
для выбора нужного языка для стемминга.
analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stemmer", # Specifies the filter type as stemmer
"language": "english", # Sets the language for stemming to English
}],
}
Фильтр stemmer
принимает следующие настраиваемые параметры.
Параметр | Описание |
---|---|
| Указывает язык для процесса стемминга. Поддерживаются следующие языки: |
Фильтр stemmer
работает с терминами, сгенерированными токенизатором, поэтому он должен использоваться в сочетании с токенизатором.
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Пример вывода
Вот пример того, как фильтр stemmer
обрабатывает текст.
Исходный текст.
"running runs looked ran runner"
Ожидаемый результат (с language: "english"
).
["run", "run", "look", "ran", "runner"]