Нижний регистр
Фильтр lowercase
преобразует термины, созданные токенизатором, в нижний регистр, делая поиск нечувствительным к регистру. Например, он может преобразовать ["High", "Performance", "Vector", "Database"]
в ["high", "performance", "vector", "database"]
.
Конфигурация
Фильтр lowercase
встроен в Milvus. Чтобы использовать его, просто укажите его имя в секции filter
в разделе analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"],
}
Фильтр lowercase
работает с терминами, сгенерированными токенизатором, поэтому он должен использоваться в сочетании с токенизатором.
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Пример вывода
Вот пример того, как фильтр lowercase
обрабатывает текст.
Исходный текст.
"The Lowercase Filter Ensures Uniformity In Text Processing."
Ожидаемый результат.
["the", "lowercase", "filter", "ensures", "uniformity", "in", "text", "processing"]