Recherche hybride
Depuis Milvus 2.4, nous avons introduit la prise en charge de plusieurs vecteurs et un cadre de recherche hybride, ce qui signifie que les utilisateurs peuvent introduire plusieurs champs de vecteurs (jusqu'à 10) dans une seule collection. Ces vecteurs dans différentes colonnes représentent diverses facettes des données, provenant de différents modèles d'intégration ou subissant des méthodes de traitement distinctes. Les résultats des recherches hybrides sont intégrés à l'aide de stratégies de reclassement, telles que la fusion des rangs réciproques (RRF) et la notation pondérée. Pour en savoir plus sur les stratégies de reclassement, reportez-vous à la section Reclassement.
Cette fonctionnalité est particulièrement utile dans les scénarios de recherche exhaustive, tels que l'identification de la personne la plus similaire dans une bibliothèque de vecteurs sur la base de divers attributs tels que les images, la voix, les empreintes digitales, etc.
Dans ce tutoriel, vous apprendrez à :
Créer plusieurs instances
AnnSearchRequest
pour les recherches de similarité sur différents champs vectoriels ;Configurer une stratégie de reclassement pour combiner et reclasser les résultats de recherche provenant de plusieurs instances
AnnSearchRequest
;Utiliser la méthode
hybrid_search()
pour effectuer une recherche hybride.
Les extraits de code de cette page utilisent le module ORM PyMilvus pour interagir avec Milvus. Des extraits de code avec le nouveau SDK MilvusClient seront bientôt disponibles.
Préparations
Avant de lancer une recherche hybride, assurez-vous que vous disposez d'une collection comportant plusieurs champs vectoriels. Actuellement, Milvus introduit une valeur par défaut de quatre champs vectoriels par collection, qui peut être étendue à un maximum de dix en modifiant la configuration proxy.maxVectorFieldNum.
Voici un exemple de création d'une collection nommée test_collection
avec deux champs vectoriels, filmVector
et posterVector
, et d'insertion d'entités aléatoires dans cette collection.
from pymilvus import connections, Collection, FieldSchema, CollectionSchema, DataType
import random
# Connect to Milvus
connections.connect(
host="10.102.7.3", # Replace with your Milvus server IP
port="19530"
)
# Create schema
fields = [
FieldSchema(name="film_id", dtype=DataType.INT64, is_primary=True),
FieldSchema(name="filmVector", dtype=DataType.FLOAT_VECTOR, dim=5), # Vector field for film vectors
FieldSchema(name="posterVector", dtype=DataType.FLOAT_VECTOR, dim=5)] # Vector field for poster vectors
schema = CollectionSchema(fields=fields,enable_dynamic_field=False)
# Create collection
collection = Collection(name="test_collection", schema=schema)
# Create index for each vector field
index_params = {
"metric_type": "L2",
"index_type": "IVF_FLAT",
"params": {"nlist": 128},
}
collection.create_index("filmVector", index_params)
collection.create_index("posterVector", index_params)
# Generate random entities to insert
entities = []
for _ in range(1000):
# generate random values for each field in the schema
film_id = random.randint(1, 1000)
film_vector = [ random.random() for _ in range(5) ]
poster_vector = [ random.random() for _ in range(5) ]
# create a dictionary for each entity
entity = {
"film_id": film_id,
"filmVector": film_vector,
"posterVector": poster_vector
}
# add the entity to the list
entities.append(entity)
collection.insert(entities)
Étape 1 : Créer plusieurs instances AnnSearchRequest
Une recherche hybride utilise l'API hybrid_search()
pour effectuer plusieurs requêtes de recherche ANN en un seul appel. Chaque site AnnSearchRequest
représente une demande de recherche unique sur un champ vectoriel spécifique.
L'exemple suivant crée deux instances AnnSearchRequest
pour effectuer des recherches de similarité individuelles sur deux champs vectoriels.
from pymilvus import AnnSearchRequest
# Create ANN search request 1 for filmVector
query_filmVector = [[0.8896863042430693, 0.370613100114602, 0.23779315077113428, 0.38227915951132996, 0.5997064603128835]]
search_param_1 = {
"data": query_filmVector, # Query vector
"anns_field": "filmVector", # Vector field name
"param": {
"metric_type": "L2", # This parameter value must be identical to the one used in the collection schema
"params": {"nprobe": 10}
},
"limit": 2 # Number of search results to return in this AnnSearchRequest
}
request_1 = AnnSearchRequest(**search_param_1)
# Create ANN search request 2 for posterVector
query_posterVector = [[0.02550758562349764, 0.006085637357292062, 0.5325251250159071, 0.7676432650114147, 0.5521074424751443]]
search_param_2 = {
"data": query_posterVector, # Query vector
"anns_field": "posterVector", # Vector field name
"param": {
"metric_type": "L2", # This parameter value must be identical to the one used in the collection schema
"params": {"nprobe": 10}
},
"limit": 2 # Number of search results to return in this AnnSearchRequest
}
request_2 = AnnSearchRequest(**search_param_2)
# Store these two requests as a list in `reqs`
reqs = [request_1, request_2]
Paramètres :
AnnSearchRequest
(objet)Une classe représentant une demande de recherche ANN. Chaque recherche hybride peut contenir de 1 à 1 024 objets
ANNSearchRequest
à la fois.data
(liste)Le vecteur de requête à rechercher dans une seule
AnnSearchRequest
. Actuellement, ce paramètre accepte une liste ne contenant qu'un seul vecteur de requête, par exemple[[0.5791814851218929, 0.5792985702614121, 0.8480776460143558, 0.16098005945243, 0.2842979317256803]]
. À l'avenir, ce paramètre sera étendu pour accepter plusieurs vecteurs de requête.anns_field
(chaîne)Le nom du champ vectoriel à utiliser dans une seule
AnnSearchRequest
.param
(dict)Un dictionnaire de paramètres de recherche pour un seul
AnnSearchRequest
. Ces paramètres de recherche sont identiques à ceux d'une recherche sur un seul vecteur. Pour plus d'informations, voir Paramètres de recherche.limit
(int)Le nombre maximum de résultats de recherche à inclure dans une seule
ANNSearchRequest
.Ce paramètre n'affecte que le nombre de résultats de recherche à renvoyer dans un appel individuel
ANNSearchRequest
, et ne détermine pas les résultats finaux à renvoyer pour un appelhybrid_search
. Dans une recherche hybride, les résultats finaux sont déterminés en combinant et en reclassant les résultats de plusieurs instancesANNSearchRequest
.
Étape 2 : configuration d'une stratégie de reclassement
Après avoir créé les instances AnnSearchRequest
, configurez une stratégie de reclassement pour combiner et reclasser les résultats. Actuellement, il existe deux options : WeightedRanker
et RRFRanker
. Pour plus d'informations sur les stratégies de reranking, reportez-vous à la section Reranking.
Utiliser la notation pondérée
L'adresse
WeightedRanker
est utilisée pour attribuer une importance aux résultats de chaque recherche de champ vectoriel avec les poids spécifiés. Si vous donnez la priorité à certains champs vectoriels par rapport à d'autres,WeightedRanker(value1, value2, ..., valueN)
peut en tenir compte dans les résultats combinés de la recherche.from pymilvus import WeightedRanker # Use WeightedRanker to combine results with specified weights # Assign weights of 0.8 to text search and 0.2 to image search rerank = WeightedRanker(0.8, 0.2)
Lors de l'utilisation de
WeightedRanker
, il convient de noter que- Chaque valeur de pondération va de 0 (la moins importante) à 1 (la plus importante), ce qui influence le résultat final agrégé.
- Le nombre total de valeurs de pondération fournies dans
WeightedRanker
doit être égal au nombre d'instancesAnnSearchRequest
que vous avez créées.
Utiliser la fusion réciproque des rangs (RFF)
# Alternatively, use RRFRanker for reciprocal rank fusion reranking from pymilvus import RRFRanker rerank = RRFRanker()
Étape 3 : Effectuer une recherche hybride
Une fois les instances AnnSearchRequest
et la stratégie de reclassement définies, utilisez la méthode hybrid_search()
pour effectuer la recherche hybride.
# Before conducting hybrid search, load the collection into memory.
collection.load()
res = collection.hybrid_search(
reqs, # List of AnnSearchRequests created in step 1
rerank, # Reranking strategy specified in step 2
limit=2 # Number of final search results to return
)
print(res)
Paramètres :
reqs
(liste)Une liste de requêtes de recherche, chaque requête étant un objet
ANNSearchRequest
. Chaque requête peut correspondre à un champ vectoriel différent et à un ensemble différent de paramètres de recherche.rerank
(objet)La stratégie de reclassement à utiliser pour la recherche hybride. Valeurs possibles :
WeightedRanker(value1, value2, ..., valueN)
etRRFRanker()
.Pour plus d'informations sur les stratégies de reclassement, voir Reranking.
limit
(int)Nombre maximal de résultats finaux à renvoyer dans la recherche hybride.
La sortie est similaire à ce qui suit :
["['id: 844, distance: 0.006047376897186041, entity: {}', 'id: 876, distance: 0.006422005593776703, entity: {}']"]
Limites
En règle générale, chaque collection dispose par défaut d'un maximum de 4 champs vectoriels. Cependant, vous avez la possibilité d'ajuster la configuration de
proxy.maxVectorFieldNum
pour augmenter le nombre maximum de champs vectoriels dans une collection, avec une limite maximale de 10 champs vectoriels par collection. Pour plus d'informations, reportez-vous à la section Configurations liées à l'indexation.Les champs vectoriels partiellement indexés ou chargés dans une collection entraîneront une erreur.
Actuellement, chaque site
AnnSearchRequest
dans une recherche hybride ne peut contenir qu'un seul vecteur de requête.
FAQ
Dans quel scénario la recherche hybride est-elle recommandée ?
La recherche hybride est idéale pour les situations complexes exigeant une grande précision, en particulier lorsqu'une entité peut être représentée par plusieurs vecteurs différents. C'est le cas lorsque les mêmes données, comme une phrase, sont traitées par différents modèles d'intégration ou lorsque des informations multimodales (comme les images, les empreintes digitales et les empreintes vocales d'un individu) sont converties en différents formats vectoriels. En attribuant des poids à ces vecteurs, leur influence combinée peut considérablement enrichir le rappel et améliorer l'efficacité des résultats de recherche.
Comment un classificateur pondéré normalise-t-il les distances entre différents champs vectoriels ?
Un classificateur pondéré normalise les distances entre les champs vectoriels en attribuant des poids à chaque champ. Il calcule l'importance de chaque champ vectoriel en fonction de son poids, en donnant la priorité à ceux qui ont un poids plus élevé. Il est conseillé d'utiliser le même type de métrique pour toutes les requêtes de recherche ANN afin de garantir la cohérence. Cette méthode permet de s'assurer que les vecteurs jugés plus importants ont une plus grande influence sur le classement général.
Est-il possible d'utiliser d'autres classeurs comme Cohere Ranker ou BGE Ranker ?
Actuellement, seuls les classificateurs fournis sont pris en charge. Il est prévu d'inclure d'autres classificateurs dans les prochaines mises à jour.
Est-il possible d'effectuer plusieurs opérations de recherche hybride en même temps ?
Oui, l'exécution simultanée de plusieurs opérations de recherche hybride est possible.
Puis-je utiliser le même champ vectoriel dans plusieurs objets AnnSearchRequest pour effectuer des recherches hybrides ?
Techniquement, il est possible d'utiliser le même champ vectoriel dans plusieurs objets AnnSearchRequest pour effectuer des recherches hybrides. Il n'est pas nécessaire d'avoir plusieurs champs vectoriels pour une recherche hybride.