milvus-logo
LFAI
Home
  • Benutzerhandbuch

Jieba

Der jieba Tokenizer verarbeitet chinesischen Text, indem er ihn in seine einzelnen Wörter zerlegt.

Konfiguration

Um einen Analyzer zu konfigurieren, der den jieba Tokenizer verwendet, setzen Sie tokenizer auf jieba in analyzer_params.

analyzer_params = {
    "tokenizer": "jieba",
}

Nachdem Sie analyzer_params definiert haben, können Sie sie bei der Definition eines Sammelschemas auf ein VARCHAR Feld anwenden. Dadurch kann Milvus den Text in diesem Feld unter Verwendung des angegebenen Analyzers für eine effiziente Tokenisierung und Filterung verarbeiten. Einzelheiten finden Sie unter Beispielanwendung.

Beispiel-Ausgabe

Hier ist ein Beispiel dafür, wie der jieba Tokenizer Text verarbeitet.

Ursprünglicher Text.

"Milvus 是一个高性能、可扩展的向量数据库!"

Erwartete Ausgabe.

["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]

Übersetzt vonDeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

War diese Seite hilfreich?