milvus-logo
LFAI
フロントページへ
  • ユーザーガイド

Cncharonly

cncharonly フィルタは、中国語以外の文字を含むトークンを取り除きます。このフィルタは中国語のテキストだけに焦点を当てたいときに便利で、 他のスクリプト、数字、記号を含むトークンを除外します。

設定方法

cncharonly フィルタは Milvus に組み込まれています。このフィルタを使用するには、analyzer_paramsfilter セクションでその名前を指定するだけです。

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["cncharonly"],
}

cncharonly フィルタはトークナイザによって生成された用語に対して動作するため、トークナイザと組み合わせて使用する必要があります。

analyzer_params を定義した後、コレクションスキーマを定義するときに、それらをVARCHAR フィールドに適用することができます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。

出力例

以下は、cncharonly フィルタがテキストをどのように処理するかの例です。

元のテキスト

"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"

期待される出力

["是", "下", "的", "一个", "开源", "项目", "以", "许可", "发布"]

翻訳DeepLogo

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
フィードバック

このページは役に立ちましたか ?