Английский
Анализатор english
в Milvus предназначен для обработки английского текста, применяя специфические для данного языка правила токенизации и фильтрации.
Определение
Анализатор english
использует следующие компоненты.
Токенизатор: Использует
standard tokenizer
для разбиения текста на отдельные единицы слов.Фильтры: Включает несколько фильтров для комплексной обработки текста.
lowercase
: : Преобразовывает все лексемы в строчные буквы, что позволяет осуществлять поиск без учета регистра.stemmer
: : Сокращает слова до их корневой формы для поддержки более широкого соответствия (например, "running" становится "run").stop_words
: Удаляет распространенные английские стоп-слова, чтобы сосредоточиться на ключевых терминах в тексте.
Функциональность анализатора english
эквивалентна следующей пользовательской конфигурации анализатора.
analyzer_params = {
"tokenizer": "standard",
"filter": [
"lowercase",
{
"type": "stemmer",
"language": "english"
},{
"type": "stop",
"stop_words": "_english_",
}
]
}
Конфигурация .
Чтобы применить анализатор english
к полю, просто установите type
на english
в analyzer_params
, и включите дополнительные параметры по мере необходимости.
analyzer_params = {
"type": "english",
}
Анализатор english
принимает следующие необязательные параметры:
Параметр | Описание |
---|---|
| Массив, содержащий список стоп-слов, которые будут удалены при токенизации. По умолчанию используется |
Пример конфигурации с пользовательскими стоп-словами.
analyzer_params = {
"type": "english",
"stop_words": ["a", "an", "the"]
}
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Пример вывода
Вот как анализатор english
обрабатывает текст.
Исходный текст.
"The Milvus vector database is built for scale!"
Ожидаемый результат.
["milvus", "vector", "databas", "built", "scale"]