milvus-logo
LFAI
홈페이지
  • 사용자 가이드

표준

standard 분석기는 Milvus의 기본 분석기로, 분석기를 지정하지 않으면 텍스트 필드에 자동으로 적용됩니다. 문법 기반 토큰화를 사용하므로 대부분의 언어에 효과적입니다.

정의

standard 분석기는 다음으로 구성됩니다.

  • 토큰화 도구: standard 토큰화 도구를 사용하여 문법 규칙에 따라 텍스트를 개별 단어 단위로 분할합니다. 자세한 내용은 표준을 참조하세요.

  • 필터: lowercase 필터를 사용하여 모든 토큰을 소문자로 변환하여 대소문자를 구분하지 않고 검색할 수 있도록 합니다. 자세한 내용은 다음을 참조하세요.lowercase filter.

standard 분석기의 기능은 다음 사용자 지정 분석기 구성과 동일합니다.

analyzer_params = {
    "tokenizer": "standard",
    "filter": ["lowercase"]
}

구성

standard 분석기를 필드에 적용하려면 analyzer_params 에서 typestandard 으로 설정하고 필요에 따라 선택적 매개변수를 포함하면 됩니다.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
}

standard 분석기는 다음과 같은 선택적 매개변수를 허용합니다:

매개변수

설명

stop_words

토큰화에서 제거할 중지 단어 목록이 포함된 배열입니다. 기본값은 기본 제공되는 일반적인 영어 중지 단어 집합인 _english_ 입니다. _english_ 에 대한 자세한 내용은 여기에서 확인할 수 있습니다.

사용자 정의 중지 단어의 구성 예시.

analyzer_params = {
    "type": "standard", # Specifies the standard analyzer type
    "stop_words", ["of"] # Optional: List of words to exclude from tokenization
}

analyzer_params 을 정의한 후 컬렉션 스키마를 정의할 때 VARCHAR 필드에 적용할 수 있습니다. 이렇게 하면 Milvus가 효율적인 토큰화 및 필터링을 위해 지정된 분석기를 사용하여 해당 필드의 텍스트를 처리할 수 있습니다. 자세한 내용은 사용 예시를 참조하세요.

예제 출력

다음은 standard 분석기가 텍스트를 처리하는 방법입니다.

원본 텍스트.

"The Milvus vector database is built for scale!"

예상 출력입니다.

["the", "milvus", "vector", "database", "is", "built", "for", "scale"]

번역DeepL

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
피드백

이 페이지가 도움이 되었나요?