🚀 免費嘗試 Zilliz Cloud,完全托管的 Milvus,體驗速度提升 10 倍!立即嘗試

milvus-logo
LFAI
主頁
  • 使用者指南
  • Home
  • Docs
  • 使用者指南

  • 模式與資料欄位

  • 分析器

  • 內建分析儀

  • 中文

中文

chinese 分析器專為處理中文文字而設計,提供有效的分割和標記化。

定義

chinese 分析器包括

  • 標記器:使用jieba tokenizer 根據詞彙和上下文將中文文字分割成 token。如需更多資訊,請參考Jieba

  • 過濾器:使用cnalphanumonly 過濾器移除包含任何非中文字元的字元。如需詳細資訊,請參閱Cnalphanumonly

chinese 分析器的功能等同於下列自訂分析器配置。

analyzer_params = {
    "tokenizer": "jieba",
    "filter": ["cnalphanumonly"]
}

配置

要將chinese 分析器套用到欄位,只要在analyzer_params 中將type 設為chinese 即可。

analyzer_params = {
    "type": "chinese",
}

chinese 分析器不接受任何可選參數。

輸出範例

以下是chinese 分析器如何處理文字。

原始文字

"Milvus 是一个高性能、可扩展的向量数据库!"

預期輸出

["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]
目錄

免費嘗試托管的 Milvus

Zilliz Cloud 無縫接入,由 Milvus 提供動力,速度提升 10 倍。

開始使用
反饋

這個頁面有幫助嗎?