Cncharonly
Фильтр cncharonly
удаляет токены, содержащие любые некитайские символы. Этот фильтр полезен, когда вы хотите сосредоточиться исключительно на китайском тексте, отфильтровывая любые токены, содержащие другие шрифты, цифры или символы.
Конфигурация
Фильтр cncharonly
встроен в Milvus. Чтобы использовать его, просто укажите его имя в секции filter
в разделе analyzer_params
.
analyzer_params = {
"tokenizer": "standard",
"filter": ["cncharonly"],
}
Фильтр cncharonly
работает с терминами, сгенерированными токенизатором, поэтому он должен использоваться в сочетании с токенизатором.
Определив analyzer_params
, вы можете применить их к полю VARCHAR
при определении схемы коллекции. Это позволит Milvus обрабатывать текст в этом поле с помощью указанного анализатора для эффективной токенизации и фильтрации. Подробнее см. в разделе Пример использования.
Пример вывода
Вот пример того, как фильтр cncharonly
обрабатывает текст.
Исходный текст.
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
Ожидаемый результат.
["是", "下", "的", "一个", "开源", "项目", "以", "许可", "发布"]