Складывание ASCII
Фильтр asciifolding
** ** преобразует символы за пределами блока Basic Latin Unicode (первые 127 символов ASCII) в их эквиваленты ASCII. Например, он преобразует символы типа í
в i
, что делает обработку текста более простой и последовательной, особенно для многоязычного контента.
Конфигурация
Фильтр asciifolding
встроен в Milvus. Чтобы использовать его, просто укажите его имя в секции filter
в разделе analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["asciifolding"],
}
Фильтр asciifolding
работает с терминами, сгенерированными токенизатором, поэтому он должен использоваться в сочетании с токенизатором.
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Пример вывода
Вот пример того, как фильтр asciifolding
обрабатывает текст.
Исходный текст.
"Café Möller serves crème brûlée and piñatas."
Ожидаемый результат.
["Cafe", "Moller", "serves", "creme", "brulee", "and", "pinatas"]