🚀 Experimente o Zilliz Cloud, o Milvus totalmente gerenciado, gratuitamente—experimente um desempenho 10x mais rápido! Experimente Agora>>

milvus-logo
LFAI
  • Home
  • Blog
  • Para saber mais sobre a pesquisa de similaridade de vetores, confira os seguintes recursos:

Para saber mais sobre a pesquisa de similaridade de vetores, confira os seguintes recursos:

  • Engineering
January 05, 2021
milvus

A inteligência artificial (IA) tem o potencial de mudar a forma como até as coisas mais obscuras são feitas. Por exemplo, todos os anos (antes da COVID, pelo menos) mais de 73.000 pessoas reúnem-se para competir na Maratona de Hong Kong. Para detetar e registar corretamente os tempos de chegada de todos os participantes na corrida, os organizadores distribuem 73.000 chips RFID para cada corredor. A cronometragem por chip é uma tarefa complexa com desvantagens óbvias. Os materiais (chips e dispositivos electrónicos de leitura) devem ser comprados ou alugados a empresas de cronometragem e deve existir uma área de registo para que os corredores possam recolher os chips no dia da corrida. Além disso, se os sensores forem instalados apenas nas linhas de partida e chegada, é possível que corredores sem escrúpulos cortem o percurso.

blog-1.jpeg blog-1.jpeg

Agora imagine uma aplicação de IA de vídeo capaz de identificar automaticamente corredores individuais a partir de imagens captadas na linha de chegada com uma única fotografia. Em vez de anexar chips de cronometragem a cada participante, os corredores simplesmente carregam uma foto de si mesmos através de uma aplicação depois de cruzarem a linha de chegada. Instantaneamente, é fornecido um resumo personalizado, estatísticas da corrida e outras informações relevantes. As câmaras instaladas em vários pontos da corrida podem captar imagens adicionais dos participantes e garantir que cada corredor percorre todo o percurso. Que solução parece mais fácil e mais económica de implementar?

Embora a Maratona de Hong Kong não utilize a aprendizagem automática para substituir os chips de cronometragem (ainda), este exemplo ilustra o potencial que a IA tem para alterar drasticamente tudo à nossa volta. Para a cronometragem da corrida, reduz dezenas de milhares de chips a algumas câmaras emparelhadas com algoritmos de aprendizagem automática. Mas a IA de vídeo é apenas uma das muitas aplicações para a pesquisa de semelhança de vectores, um processo que utiliza a inteligência artificial para analisar conjuntos de dados não estruturados maciços e à escala de um bilião. Este artigo apresenta uma visão geral da tecnologia de pesquisa vetorial, incluindo o que é, como pode ser utilizada, bem como o software de código aberto e os recursos que a tornam mais acessível do que nunca.

Saltar para:

Os dados de vídeo são incrivelmente detalhados e cada vez mais comuns, pelo que, logicamente, parece que seriam um ótimo sinal de aprendizagem não supervisionada para criar IA de vídeo. Na realidade, não é esse o caso. O processamento e a análise de dados de vídeo, especialmente em grandes volumes, continua a ser um desafio para a inteligência artificial. Os progressos recentes neste domínio, tal como grande parte dos progressos realizados na análise de dados não estruturados, devem-se em grande parte à pesquisa de semelhanças vectoriais.

O problema do vídeo, tal como de todos os dados não estruturados, é que não segue um modelo ou uma estrutura organizacional predefinidos, o que dificulta o seu processamento e análise em grande escala. Os dados não estruturados incluem coisas como imagens, áudio, comportamento nas redes sociais e documentos, representando coletivamente cerca de 80-90%+ de todos os dados. As empresas estão cada vez mais conscientes dos insights críticos para os negócios enterrados em conjuntos de dados massivos e enigmáticos não estruturados, impulsionando a demanda por aplicativos de IA que podem explorar esse potencial não realizado.

Utilizando redes neurais como CNN, RNN e BERT, os dados não estruturados podem ser convertidos em vectores de caraterísticas (também conhecidos como embeddings), um formato de dados numéricos legível por máquina. Os algoritmos são então utilizados para calcular a semelhança entre vectores utilizando medidas como a semelhança cosseno ou a distância euclidiana. A incorporação de vectores e a pesquisa de semelhanças tornam possível analisar e criar aplicações de aprendizagem automática utilizando conjuntos de dados anteriormente indiscerníveis.

A semelhança de vectores é calculada utilizando algoritmos estabelecidos, no entanto, os conjuntos de dados não estruturados são normalmente enormes. Isto significa que uma pesquisa eficiente e precisa requer um vasto armazenamento e poder de computação. Para acelerar a pesquisa de semelhanças e reduzir os requisitos de recursos, são utilizados algoritmos de pesquisa do vizinho mais próximo aproximado (ANN). Ao agrupar vectores semelhantes, os algoritmos ANN permitem enviar consultas para os agrupamentos de vectores com maior probabilidade de conterem vectores semelhantes, em vez de pesquisar todo o conjunto de dados. Embora esta abordagem seja mais rápida, sacrifica algum grau de precisão. A utilização de algoritmos ANN permite que a pesquisa de vectores passe a pente fino milhares de milhões de conhecimentos de modelos de aprendizagem profunda em milissegundos.

A pesquisa de similaridade vetorial tem aplicações que abrangem uma ampla variedade de cenários de inteligência artificial, aprendizado profundo e cálculo vetorial tradicional. A seguir, apresentamos uma visão geral de alto nível de vários aplicativos de pesquisa de similaridade de vetores:

Comércio eletrónico: A pesquisa por semelhança de vectores tem uma ampla aplicabilidade no comércio eletrónico, incluindo motores de pesquisa de imagens invertidas que permitem aos compradores procurar produtos utilizando uma imagem capturada no seu smartphone ou encontrada online. Além disso, as recomendações personalizadas baseadas no comportamento do utilizador, interesses, histórico de compras, etc., podem ser fornecidas por sistemas de recomendação especializados que se baseiam na pesquisa vetorial.

Segurança física e cibernética: A IA de vídeo é apenas uma das muitas aplicações da pesquisa de similaridade de vectores no campo da segurança. Outros cenários incluem o reconhecimento facial, o rastreio de comportamentos, a autenticação de identidades, o controlo de acesso inteligente, entre outros. Além disso, a pesquisa por semelhança de vectores desempenha um papel importante no combate a ciberataques cada vez mais comuns e sofisticados. Por exemplo, a pesquisa por semelhança de código pode ser utilizada para identificar riscos de segurança, comparando uma peça de software com uma base de dados de vulnerabilidades conhecidas ou malware.

Motores de recomendação: Os motores de recomendação são sistemas que utilizam a aprendizagem automática e a análise de dados para sugerir produtos, serviços, conteúdos e informações aos utilizadores. O comportamento do utilizador, o comportamento de utilizadores semelhantes e outros dados são processados utilizando métodos de aprendizagem profunda para gerar recomendações. Com dados suficientes, os algoritmos podem ser treinados para compreender as relações entre entidades e inventar formas de as representar autonomamente. Os sistemas de recomendação têm uma vasta aplicabilidade e são algo com que as pessoas já interagem todos os dias, incluindo recomendações de conteúdos na Netflix, recomendações de compras na Amazon e feeds de notícias no Facebook.

Chatbots: Tradicionalmente, os chatbots são construídos utilizando um gráfico de conhecimento regular que requer um grande conjunto de dados de treino. No entanto, os chatbots criados com modelos de aprendizagem profunda não precisam de pré-processar dados - em vez disso, é criado um mapa entre perguntas e respostas frequentes. Utilizando um modelo de processamento de linguagem natural (PNL) pré-treinado, os vectores de caraterísticas podem ser extraídos das perguntas e depois armazenados e consultados utilizando uma plataforma de gestão de dados vectoriais.

Pesquisa de imagens ou vídeos: As redes de aprendizagem profunda têm sido utilizadas para reconhecer padrões visuais desde o final dos anos 70, e as tendências tecnológicas modernas tornaram a pesquisa de imagens e vídeos mais poderosa e acessível do que nunca.

Pesquisa de similaridade química: A similaridade química é fundamental para prever as propriedades dos compostos químicos e encontrar produtos químicos com atributos específicos, tornando-a indispensável para o desenvolvimento de novos medicamentos. Para cada molécula, são criadas impressões digitais representadas por vectores de caraterísticas e, em seguida, as distâncias entre vectores são utilizadas para medir a semelhança. A utilização da IA para a descoberta de novos medicamentos está a ganhar força na indústria tecnológica, com a ByteDance (empresa-mãe chinesa do TikTok) a começar a contratar talentos nesta área.

Software e recursos de pesquisa de similaridade vetorial de código aberto.

A lei de Moore, a computação em nuvem e a redução dos custos dos recursos são macrotendências que tornaram a inteligência artificial mais acessível do que nunca. Graças ao software de código aberto e a outros recursos publicamente disponíveis, a criação de aplicações de IA/ML não é apenas para as grandes empresas de tecnologia. Abaixo, apresentamos uma breve descrição geral do Milvus, uma plataforma de gestão de dados vectoriais de código aberto, e destacamos também alguns conjuntos de dados disponíveis publicamente que ajudam a colocar a IA ao alcance de todos.

Milvus, uma plataforma de gestão de dados vectoriais de código aberto

O Milvus é uma plataforma de gestão de dados vectoriais de código aberto criada especificamente para dados vectoriais em grande escala. Alimentado pelo Facebook AI Similarity Search (Faiss), pela Non-Metric Space Library (NMSLIB) e pelo Annoy, o Milvus reúne uma variedade de ferramentas poderosas numa única plataforma, ao mesmo tempo que alarga a sua funcionalidade autónoma. O sistema foi criado especificamente para armazenar, processar e analisar grandes conjuntos de dados vectoriais e pode ser utilizado para criar todas as aplicações de IA (e outras) acima mencionadas.

Mais informações sobre o Milvus podem ser encontradas no seu sítio Web. Tutoriais, instruções para configurar o Milvus, testes de benchmark e informações sobre a construção de uma variedade de aplicações diferentes estão disponíveis no bootcamp do Milvus. Os programadores interessados em contribuir para o projeto podem juntar-se à comunidade de código aberto do Milvus no GitHub.

Conjuntos de dados públicos para inteligência artificial e aprendizagem automática

Não é segredo que os gigantes da tecnologia, como o Google e o Facebook, têm uma vantagem em termos de dados sobre os mais pequenos. Alguns especialistas defendem mesmo um "mandato progressivo de partilha de dados" que obrigaria as empresas que excedessem uma determinada dimensão a partilhar alguns dados anónimos com rivais mais pequenos. Felizmente, existem milhares de conjuntos de dados disponíveis publicamente que podem ser utilizados para projectos AL/ML:

  • O Conjunto de Dados do Discurso do Povo: Este conjunto de dados do ML Commons oferece o maior conjunto de dados de discurso do mundo, com mais de 87.000 horas de discurso transcrito em 59 idiomas diferentes.

  • Repositório de Aprendizagem Automática da UC Irvine: A Universidade da Califórnia em Irvine mantém centenas de conjuntos de dados públicos num esforço para ajudar a comunidade de aprendizagem automática.

  • Data.gov: O governo dos EUA oferece centenas de milhares de conjuntos de dados abertos que abrangem a educação, o clima, a COVID-19 e muito mais.

  • Eurostat: O gabinete de estatísticas da União Europeia disponibiliza conjuntos de dados abertos que abrangem uma variedade de sectores, desde a economia e finanças à população e condições sociais.

  • Dataverse de Harvard: O Harvard Dataverse Repository é um repositório de dados gratuito aberto a investigadores de várias disciplinas. Muitos conjuntos de dados são públicos, enquanto outros têm condições de utilização mais restritas.

Embora esta lista não seja de modo algum exaustiva, é um bom ponto de partida para descobrir a variedade surpreendentemente grande de conjuntos de dados abertos. Para mais informações sobre conjuntos de dados públicos, bem como para escolher os dados certos para o seu próximo projeto de ML ou de ciência de dados, consulte esta publicação do Medium.

Para saber mais sobre a pesquisa de similaridade de vetores, confira os seguintes recursos:

    Try Managed Milvus for Free

    Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.

    Get Started

    Like the article? Spread the word

    Continue Lendo