Cnalphanumonly
Фильтр cnalphanumonly
удаляет токены, содержащие любые символы, отличные от китайских, английских букв или цифр.
Конфигурация
Фильтр cnalphanumonly
встроен в Milvus. Чтобы использовать его, просто укажите его имя в секции filter
в разделе analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["cnalphanumonly"],
}
Фильтр cnalphanumonly
работает с терминами, сгенерированными токенизатором, поэтому он должен использоваться в сочетании с токенизатором.
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Пример вывода
Вот пример того, как фильтр cnalphanumonly
обрабатывает текст.
Исходный текст.
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
Ожидаемый результат.
["Milvus", "是", "LF", "AI", "Data", "Foundation", "下", "的", "一个", "开源", "项目", "以", "Apache", "2.0", "许可", "发布"]