Стандартный
Анализатор standard
- это анализатор по умолчанию в Milvus, который автоматически применяется к текстовым полям, если анализатор не указан. Он использует грамматическую токенизацию, что делает его эффективным для большинства языков.
Определение
Анализатор standard
состоит из.
Токенизатор: Использует токенизатор
standard
для разбиения текста на отдельные единицы слов на основе правил грамматики. Дополнительную информацию см. в разделе Стандарт.Фильтр: Использует фильтр
lowercase
для преобразования всех лексем в нижний регистр, что позволяет осуществлять поиск без учета регистра. Для получения дополнительной информации см.lowercase filter
.
Функциональность анализатора standard
эквивалентна следующей пользовательской конфигурации анализатора.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Конфигурация .
Чтобы применить анализатор standard
к полю, просто установите type
на standard
в analyzer_params
, и включите дополнительные параметры по мере необходимости.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}
Анализатор standard
принимает следующие необязательные параметры:
Параметр | Описание |
---|---|
| Массив, содержащий список стоп-слов, которые будут удалены при токенизации. По умолчанию используется |
Пример настройки пользовательских стоп-слов.
analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Дополнительные сведения см. в разделе Пример использования.
Пример вывода
Вот как анализатор standard
обрабатывает текст.
Исходный текст.
"The Milvus vector database is built for scale!"
Ожидаемый результат.
["the", "milvus", "vector", "database", "is", "built", "for", "scale"]