milvus-logo
LFAI
홈페이지
  • 사용자 가이드

영어

Milvus의 english 분석기는 영어 텍스트를 처리하도록 설계되어 토큰화 및 필터링에 대한 언어별 규칙을 적용합니다.

정의

english 분석기는 다음 구성 요소를 사용합니다.

  • 토큰화 도구: 를 사용하여 standard tokenizer 를 사용하여 텍스트를 개별 단어 단위로 분할합니다.

  • 필터: 포괄적인 텍스트 처리를 위한 여러 필터가 포함되어 있습니다.

    • lowercase: 모든 토큰을 소문자로 변환하여 대소문자를 구분하지 않고 검색할 수 있도록 합니다.

    • stemmer: 더 광범위한 검색을 지원하기 위해 단어를 어근 형태로 축소합니다(예: "running"이 "run"이 됨).

    • stop_words: 텍스트의 주요 용어에 집중하기 위해 일반적인 영어 중단어를 제거합니다.

english 분석기의 기능은 다음과 같은 사용자 정의 분석기 구성과 동일합니다.

analyzer_params = {
    "tokenizer": "standard",
    "filter": [
        "lowercase",
        {
            "type": "stemmer",
            "language": "english"
        },{
            "type": "stop",
            "stop_words": "_english_",
        }
    ]
}

구성

english 분석기를 필드에 적용하려면 analyzer_params 에서 typeenglish 으로 설정하고 필요에 따라 선택적 매개변수를 포함하면 됩니다.

analyzer_params = {
    "type": "english",
}

english 분석기는 다음과 같은 선택적 매개변수를 허용합니다:

매개변수

설명

stop_words

토큰화에서 제거할 중지 단어 목록이 포함된 배열입니다. 기본값은 기본 제공되는 일반적인 영어 중지 단어 집합인 _english_ 입니다.

사용자 정의 중지 단어를 사용한 구성 예시.

analyzer_params = {
    "type": "english",
    "stop_words": ["a", "an", "the"]
}

analyzer_params 을 정의한 후 컬렉션 스키마를 정의할 때 VARCHAR 필드에 적용할 수 있습니다. 이렇게 하면 Milvus가 효율적인 토큰화 및 필터링을 위해 지정된 분석기를 사용하여 해당 필드의 텍스트를 처리할 수 있습니다. 자세한 내용은 사용 예시를 참조하세요.

예제 출력

다음은 english 분석기가 텍스트를 처리하는 방식입니다.

원본 텍스트.

"The Milvus vector database is built for scale!"

예상 출력.

["milvus", "vector", "databas", "built", "scale"]

번역DeepL

목차 목록

Try Managed Milvus for Free

Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

Get Started
피드백

이 페이지가 도움이 되었나요?