🚀 免費嘗試 Zilliz Cloud,完全托管的 Milvus,體驗速度提升 10 倍!立即嘗試

milvus-logo
LFAI
主頁
  • 使用者指南
  • Home
  • Docs
  • 使用者指南

  • 模式與資料欄位

  • 分析器

  • 計時器

  • 白色空間

空格

只要字與字之間有空格,whitespace tokenizer 就會將文字分割成詞彙。

配置

要設定使用whitespace 記號化器器的分析器,請在analyzer_params 中設定tokenizerwhitespace

analyzer_params = {
    "tokenizer": "whitespace",
}

空白符記器可與一個或多個過濾器結合使用。例如,以下代碼定義了一個使用whitespace 記號器和 lowercase filter:

analyzer_params = {
    "tokenizer": "whitespace",
    "filter": ["lowercase"]
}

定義analyzer_params 之後,您可以在定義集合模式時,將它們套用到VARCHAR 欄位。這可讓 Milvus 使用指定的分析器來處理該欄位中的文字,以進行有效的符記化和過濾。詳情請參閱範例使用

輸出範例

以下是whitespace 標記化器如何處理文字的範例。

原始文字

"The Milvus vector database is built for scale!"

預期輸出

["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]

免費嘗試托管的 Milvus

Zilliz Cloud 無縫接入,由 Milvus 提供動力,速度提升 10 倍。

開始使用
反饋

這個頁面有幫助嗎?