milvus-logo
LFAI
Home
  • Benutzerhandbuch

Chinesisch

Der chinese analyzer wurde speziell für die Bearbeitung von chinesischem Text entwickelt und bietet eine effektive Segmentierung und Tokenisierung.

Definition

Der chinese Analyzer besteht aus.

  • Tokenisierer: Verwendet den jieba Tokenizer, um chinesischen Text auf der Grundlage von Vokabular und Kontext in Token zu segmentieren. Weitere Informationen finden Sie unter Jieba.

  • Filter: Verwendet den cnalphanumonly Filter, um Token zu entfernen, die nicht-chinesische Zeichen enthalten. Weitere Informationen finden Sie unter Cnalphanumonly.

Die Funktionalität des chinese Analyzers entspricht der folgenden benutzerdefinierten Analyzer-Konfiguration.

analyzer_params = {
    "tokenizer": "jieba",
    "filter": ["cnalphanumonly"]
}

Konfiguration

Um den Analyzer chinese auf ein Feld anzuwenden, setzen Sie einfach type auf chinese in analyzer_params.

analyzer_params = {
    "type": "chinese",
}

Der Analyzer chinese akzeptiert keine optionalen Parameter.

Beispielhafte Ausgabe

So verarbeitet der chinese analyzer Text.

Ursprünglicher Text.

"Milvus 是一个高性能、可扩展的向量数据库!"

Erwartete Ausgabe.

["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]

Übersetzt vonDeepL

Tabelle der Inhalte

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
Feedback

War diese Seite hilfreich?