중국어
chinese
분석기는 중국어 텍스트를 처리하도록 특별히 설계되어 효과적인 세분화 및 토큰화를 제공합니다.
정의
chinese
분석기는 다음으로 구성됩니다.
토큰화 도구:
jieba
토큰화기를 사용하여 어휘와 문맥에 따라 중국어 텍스트를 토큰으로 분할합니다. 자세한 내용은 Jieba를 참조하세요.필터:
cnalphanumonly
필터를 사용하여 중국어 이외의 문자가 포함된 토큰을 제거합니다. 자세한 내용은 한자만을 참조하세요.
chinese
분석기의 기능은 다음 사용자 지정 분석기 구성과 동일합니다.
analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}
구성
chinese
분석기를 필드에 적용하려면 analyzer_params
에서 type
을 chinese
로 설정하면 됩니다.
analyzer_params = {
"type": "chinese",
}
chinese
분석기는 선택적 매개 변수를 허용하지 않습니다.
출력 예시
다음은 chinese
분석기가 텍스트를 처리하는 방식입니다.
원본 텍스트.
"Milvus 是一个高性能、可扩展的向量数据库!"
예상 출력입니다.
["Milvus", "是", "一个", "高性", "性能", "高性能", "可", "扩展", "的", "向量", "数据", "据库", "数据库"]