Только алфавитно-цифровые термины
Фильтр alphanumonly
удаляет лексемы, содержащие символы, отличные от ASCII, оставляя только буквенно-цифровые термины. Этот фильтр полезен для обработки текста, в котором важны только основные буквы и цифры, исключая любые специальные символы и знаки.
Конфигурация
Фильтр alphanumonly
встроен в Milvus. Чтобы использовать его, просто укажите его имя в секции filter
в разделе analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["alphanumonly"],
}
Фильтр alphanumonly
работает с терминами, сгенерированными токенизатором, поэтому он должен использоваться в сочетании с токенизатором.
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Пример вывода
Вот пример того, как фильтр alphanumonly
обрабатывает текст.
Исходный текст.
"Milvus 2.0 @ Scale! #AI #Vector_Databasé"
Ожидаемый результат.
["Milvus", "2", "0", "Scale", "AI", "Vector"]