🚀 Prueba Zilliz Cloud, el Milvus completamente gestionado, gratis—¡experimenta un rendimiento 10 veces más rápido! Prueba Ahora>>

milvus-logo
LFAI
  • Home
  • Blog
  • Para obtener más información sobre la búsqueda de similitud vectorial, consulte los siguientes recursos:

Para obtener más información sobre la búsqueda de similitud vectorial, consulte los siguientes recursos:

  • Engineering
January 05, 2021
milvus

La inteligencia artificial (IA) tiene el potencial de cambiar la forma de hacer hasta las cosas más oscuras. Por ejemplo, cada año (antes de COVID, al menos) más de 73.000 personas se congregan para competir en el maratón de Hong Kong. Para medir y registrar correctamente los tiempos de llegada de todos los participantes, los organizadores distribuyen 73.000 chips RFID que se colocan a cada corredor. El cronometraje por chip es una empresa compleja con evidentes inconvenientes. Los materiales (chips y dispositivos electrónicos de lectura) deben comprarse o alquilarse a empresas de cronometraje, y debe haber una zona de registro para que los corredores recojan los chips el día de la carrera. Además, si los sensores se instalan sólo en las líneas de salida y meta, es posible que corredores sin escrúpulos corten el recorrido.

blog-1.jpeg blog-1.jpeg

Imaginemos ahora una aplicación de IA de vídeo capaz de identificar automáticamente a corredores individuales a partir de imágenes captadas en la línea de meta utilizando una sola foto. En lugar de colocar chips de cronometraje a cada participante, los corredores sólo tienen que subir una foto suya a través de una aplicación después de cruzar la línea de meta. Al instante, se ofrece un vídeo personalizado con los mejores momentos, estadísticas de la carrera y otra información relevante. Las cámaras instaladas en distintos puntos de la carrera pueden captar imágenes adicionales de los participantes y garantizar que cada corredor recorre todo el recorrido. ¿Qué solución parece más fácil y rentable?

Aunque el maratón de Hong Kong no aprovecha el aprendizaje automático para sustituir los chips de cronometraje (todavía), este ejemplo ilustra el potencial que tiene la IA para alterar drásticamente todo lo que nos rodea. Para el cronometraje de carreras, reduce decenas de miles de chips a unas pocas cámaras combinadas con algoritmos de aprendizaje automático. Pero la IA de vídeo es sólo una de las muchas aplicaciones de la búsqueda de similitud vectorial, un proceso que utiliza la inteligencia artificial para analizar conjuntos de datos no estructurados masivos y a escala de billones. Este artículo ofrece una visión general de la tecnología de búsqueda vectorial, incluyendo qué es, cómo se puede utilizar, así como el software de código abierto y los recursos que la hacen más accesible que nunca.

Ir a:

Los datos de vídeo son increíblemente detallados y cada vez más comunes, por lo que lógicamente parece que serían una gran señal de aprendizaje no supervisado para construir IA de vídeo. En realidad, no es así. Procesar y analizar datos de vídeo, especialmente en grandes volúmenes, sigue siendo un reto para la inteligencia artificial. Los recientes avances en este campo, como gran parte de los logrados en el análisis de datos no estructurados, se deben en gran parte a la búsqueda de similitud vectorial.

El problema del vídeo, como el de todos los datos no estructurados, es que no sigue un modelo o una estructura organizativa predefinidos, lo que dificulta su procesamiento y análisis a gran escala. Los datos no estructurados incluyen elementos como imágenes, audio, comportamiento en las redes sociales y documentos, y se calcula que en conjunto representan más del 80-90% de todos los datos. Las empresas son cada vez más conscientes de los conocimientos críticos para el negocio que encierran los enormes y enigmáticos conjuntos de datos no estructurados, lo que impulsa la demanda de aplicaciones de IA que puedan aprovechar este potencial no explotado.

Con redes neuronales como CNN, RNN y BERT, los datos no estructurados pueden convertirse en vectores de características (también conocidos como incrustaciones), un formato de datos numéricos legibles por máquina. A continuación, se utilizan algoritmos para calcular la similitud entre vectores utilizando medidas como la similitud coseno o la distancia euclídea. La incrustación de vectores y la búsqueda de similitudes permiten analizar y crear aplicaciones de aprendizaje automático a partir de conjuntos de datos antes indiscernibles.

La similitud vectorial se calcula mediante algoritmos establecidos, pero los conjuntos de datos no estructurados suelen ser masivos. Esto significa que una búsqueda eficaz y precisa requiere una gran capacidad de almacenamiento y potencia de cálculo. Para acelerar la búsqueda de similitudes y reducir las necesidades de recursos, se utilizan algoritmos de búsqueda de vecinos más cercanos aproximados (RNA). Al agrupar vectores similares, los algoritmos RNA permiten enviar consultas a los grupos de vectores con más probabilidades de contener vectores similares, en lugar de buscar en todo el conjunto de datos. Aunque este método es más rápido, sacrifica cierto grado de precisión. Aprovechar los algoritmos de RNA permite a la búsqueda vectorial peinar miles de millones de conocimientos de modelos de aprendizaje profundo en milisegundos.

La búsqueda de similitud vectorial tiene aplicaciones que abarcan una amplia variedad de escenarios de inteligencia artificial, aprendizaje profundo y cálculo vectorial tradicional. A continuación se ofrece una descripción general de alto nivel de varias aplicaciones de búsqueda de similitud vectorial:

Comercio electrónico: La búsqueda de similitud vectorial tiene una amplia aplicabilidad en el comercio electrónico, incluidos los motores de búsqueda inversa de imágenes que permiten a los compradores buscar productos utilizando una imagen capturada en su teléfono inteligente o encontrada en línea. Además, los sistemas de recomendación especializados que se basan en la búsqueda vectorial pueden ofrecer recomendaciones personalizadas basadas en el comportamiento del usuario, sus intereses, su historial de compras, etc.

Seguridad física y cibernética: La IA de vídeo es solo una de las muchas aplicaciones de la búsqueda vectorial de similitudes en el campo de la seguridad. Otros escenarios incluyen el reconocimiento facial, el rastreo de comportamientos, la autenticación de identidades, el control de acceso inteligente y más. Además, la búsqueda de similitud vectorial desempeña un papel importante a la hora de frustrar ciberataques cada vez más comunes y sofisticados. Por ejemplo, la búsqueda de similitudes de código puede utilizarse para identificar riesgos de seguridad comparando una pieza de software con una base de datos de vulnerabilidades o malware conocidos.

Motores de recomendación: Los motores de recomendación son sistemas que utilizan el aprendizaje automático y el análisis de datos para sugerir productos, servicios, contenidos e información a los usuarios. El comportamiento del usuario, el comportamiento de usuarios similares y otros datos se procesan utilizando métodos de aprendizaje profundo para generar recomendaciones. Con suficientes datos, los algoritmos pueden entrenarse para comprender las relaciones entre entidades e inventar formas de representarlas de forma autónoma. Los sistemas de recomendación tienen una amplia aplicabilidad y son algo con lo que la gente ya interactúa todos los días, incluidas las recomendaciones de contenido en Netflix, las recomendaciones de compras en Amazon y los feeds de noticias en Facebook.

Chatbots: Tradicionalmente, los chatbots se construyen utilizando un grafo de conocimiento normal que requiere un gran conjunto de datos de entrenamiento. Sin embargo, los chatbots creados con modelos de aprendizaje profundo no necesitan preprocesar los datos, sino que se crea un mapa entre preguntas y respuestas frecuentes. Mediante un modelo de procesamiento del lenguaje natural (PLN) previamente entrenado, se pueden extraer vectores de características de las preguntas y, a continuación, almacenarlos y consultarlos utilizando una plataforma de gestión de datos vectoriales.

Búsqueda de imágenes o vídeos: Las redes de aprendizaje profundo se han utilizado para reconocer patrones visuales desde finales de la década de 1970, y las tendencias tecnológicas modernas han hecho que la búsqueda de imágenes y vídeos sea más potente y accesible que nunca.

Búsqueda por similitud química: La similitud química es clave para predecir las propiedades de los compuestos químicos y encontrar sustancias químicas con atributos específicos, lo que la hace indispensable para el desarrollo de nuevos fármacos. Para cada molécula se crean huellas dactilares representadas por vectores de características y, a continuación, se utilizan las distancias entre vectores para medir la similitud. El uso de la IA para el descubrimiento de nuevos fármacos está ganando impulso en la industria tecnológica, y ByteDance (la empresa matriz china de TikTok) está empezando a contratar talentos en este campo.

Software y recursos de código abierto para la búsqueda de similitud vectorial.

La ley de Moore, la computación en nube y la disminución de los costes de los recursos son macrotendencias que han hecho que la inteligencia artificial sea más accesible que nunca. Gracias al software de código abierto y a otros recursos disponibles públicamente, la creación de aplicaciones de IA/ML no es sólo cosa de las grandes empresas tecnológicas. A continuación ofrecemos una breve descripción de Milvus, una plataforma de gestión de datos vectoriales de código abierto, y también destacamos algunos conjuntos de datos disponibles públicamente que ayudan a poner la IA al alcance de todos.

Milvus, una plataforma de gestión de datos vectoriales de código abierto

Milvus es una plataforma de gestión de datos vectoriales de código abierto creada específicamente para datos vectoriales a gran escala. Impulsado por Facebook AI Similarity Search (Faiss), Non-Metric Space Library (NMSLIB), y Annoy, Milvus reúne una variedad de potentes herramientas en una sola plataforma al tiempo que amplía su funcionalidad independiente. El sistema se ha creado específicamente para almacenar, procesar y analizar grandes conjuntos de datos vectoriales, y puede utilizarse para crear todas las aplicaciones de IA (y más) mencionadas anteriormente.

Puede encontrar más información sobre Milvus en su sitio web. En el Milvus bootcamp se ofrecen tutoriales, instrucciones para configurar Milvus, pruebas comparativas e información sobre la creación de diversas aplicaciones. Los desarrolladores interesados en contribuir al proyecto pueden unirse a la comunidad de código abierto de Milvus en GitHub.

Conjuntos de datos públicos para inteligencia artificial y aprendizaje automático

No es ningún secreto que los gigantes tecnológicos como Google y Facebook tienen ventaja sobre los pequeños en lo que a datos se refiere, y algunos expertos incluso abogan por un "mandato progresivo de intercambio de datos" que obligue a las empresas que superen un determinado tamaño a compartir algunos datos anónimos con rivales más pequeños. Afortunadamente, hay miles de conjuntos de datos a disposición del público que pueden utilizarse en proyectos de AL/ML:

  • The People's Speech Dataset: Este conjunto de datos de ML Commons ofrece el mayor conjunto de datos de habla del mundo, con más de 87.000 horas de habla transcrita en 59 idiomas diferentes.

  • UC Irvine Machine Learning Repository: La Universidad de California en Irvine mantiene cientos de conjuntos de datos públicos en un esfuerzo por ayudar a la comunidad de aprendizaje automático.

  • Data.gov: El gobierno de Estados Unidos ofrece cientos de miles de conjuntos de datos abiertos sobre educación, clima, COVID-19, etc.

  • Eurostat: La oficina estadística de la Unión Europea ofrece conjuntos de datos abiertos que abarcan una gran variedad de sectores, desde la economía y las finanzas hasta la población y las condiciones sociales.

  • Harvard Dataverse: El Harvard Dataverse Repository es un repositorio de datos gratuito abierto a investigadores de todas las disciplinas. Muchos conjuntos de datos son públicos, mientras que otros tienen condiciones de uso más restringidas.

Aunque esta lista no es en absoluto exhaustiva, es un buen punto de partida para descubrir la sorprendente variedad de conjuntos de datos abiertos. Para obtener más información sobre los conjuntos de datos públicos, así como para elegir los datos adecuados para su próximo proyecto de ML o de ciencia de datos, consulte este artículo de Medium.

Para obtener más información sobre la búsqueda de similitud vectorial, consulte los siguientes recursos:

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    Sigue Leyendo