milvus-logo
LFAI
フロントページへ
  • ユーザーガイド

ASCII 字形統合

asciifolding** **filter は、基本欧文 Unicode ブ ロ ッ ク(先頭 127 ASCII キ ャ ラ ク タ ) の外にあ る キ ャ ラ ク タ を、 それ と 等価な ASCII キ ャ ラ ク タ へ変換 し ます。た と えば、í の よ う なキ ャ ラ ク タ をi へ変換 し 、 テ キ ス ト 処理を、 と り わけ多言語 コ ン テ ン ツに対 し ては、 よ り 簡単で一貫性のあ る も のに し ます。

構成

asciifolding フィルタはMilvusに組み込まれています。このフィルタを使用するには、analyzer_paramsfilter セクションでその名前を指定するだけです。

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["asciifolding"],
}

asciifolding フィルタはトークナイザによって生成された用語に対して動作するため、トークナイザと組み合わせて使用する必要があります。

analyzer_params を定義した後、コレクションスキーマを定義するときに、それらをVARCHAR フィールドに適用することができます。これにより、Milvusは指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例を参照してください。

出力例

以下は、asciifolding フィルタがテキストをどのように処理するかの例です。

元のテキスト

"Café Möller serves crème brûlée and piñatas."

期待される出力

["Cafe", "Moller", "serves", "creme", "brulee", "and", "pinatas"]

翻訳DeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
フィードバック

このページは役に立ちましたか ?