Untuk mempelajari lebih lanjut tentang pencarian kemiripan vektor, lihat sumber-sumber berikut:
Kecerdasan buatan (AI) memiliki potensi untuk mengubah cara melakukan sesuatu yang paling tidak jelas sekalipun. Sebagai contoh, setiap tahun (sebelum COVID) lebih dari 73.000 orang berkumpul untuk berkompetisi di Hong Kong Marathon. Untuk mengetahui dan mencatat waktu penyelesaian dengan benar untuk semua peserta lomba, penyelenggara mendistribusikan 73.000 chip timer RFID untuk dipasangkan pada setiap pelari. Pengukur waktu dengan chip adalah pekerjaan yang rumit dengan kelemahan yang jelas. Bahan-bahan (chip dan perangkat pembacaan elektronik) harus dibeli atau disewa dari perusahaan pencatat waktu, dan area registrasi harus disediakan bagi pelari untuk mengumpulkan chip pada hari lomba. Selain itu, jika sensor hanya dipasang di garis start dan finish, ada kemungkinan pelari yang tidak bertanggung jawab untuk memotong lintasan.
blog-1.jpeg
Sekarang bayangkan sebuah aplikasi AI video yang mampu secara otomatis mengidentifikasi setiap pelari dari rekaman yang diambil di garis finish menggunakan satu foto. Daripada memasang chip pencatat waktu pada setiap peserta, pelari cukup mengunggah foto diri mereka sendiri melalui aplikasi setelah mereka melewati garis finis. Secara instan, sorotan yang dipersonalisasi, statistik lomba, dan informasi relevan lainnya disediakan. Kamera yang dipasang di berbagai titik sepanjang lomba dapat menangkap rekaman tambahan dari para peserta dan memastikan setiap pelari melintasi seluruh lintasan. Solusi mana yang tampaknya lebih mudah dan lebih hemat biaya untuk diterapkan?
Meskipun Maraton Hong Kong tidak memanfaatkan pembelajaran mesin untuk menggantikan chip pencatat waktu (belum), contoh ini menggambarkan potensi AI yang dimiliki untuk mengubah segala sesuatu di sekitar kita secara drastis. Untuk pengaturan waktu lomba, teknologi ini mengurangi puluhan ribu chip menjadi beberapa kamera yang dipasangkan dengan algoritme pembelajaran mesin. Namun, AI video hanyalah salah satu dari sekian banyak aplikasi untuk pencarian kemiripan vektor, sebuah proses yang menggunakan kecerdasan buatan untuk menganalisis kumpulan data tak terstruktur berskala triliunan yang sangat besar. Artikel ini memberikan gambaran umum tentang teknologi pencarian vektor, termasuk apa itu teknologi ini, bagaimana teknologi ini dapat digunakan, serta perangkat lunak dan sumber daya sumber terbuka yang membuatnya lebih mudah diakses daripada sebelumnya.
Langsung ke:
Apa yang dimaksud dengan pencarian kemiripan vektor?
Data video sangat detail dan semakin umum, sehingga secara logis sepertinya ini akan menjadi sinyal pembelajaran tanpa pengawasan yang bagus untuk membangun AI video. Kenyataannya, tidak demikian. Memproses dan menganalisis data video, terutama dalam volume yang besar, tetap menjadi tantangan bagi kecerdasan buatan. Kemajuan terbaru dalam bidang ini, seperti banyak kemajuan yang dibuat dalam analisis data tidak terstruktur, sebagian besar disebabkan oleh pencarian kemiripan vektor.
Masalah dengan video, seperti halnya semua data tidak terstruktur, adalah bahwa video tidak mengikuti model atau struktur organisasi yang telah ditetapkan sebelumnya, sehingga sulit untuk diproses dan dianalisis dalam skala besar. Data tidak terstruktur mencakup hal-hal seperti gambar, audio, perilaku media sosial, dan dokumen, yang secara kolektif mencapai 80-90%+ dari semua data. Perusahaan semakin menyadari wawasan penting bisnis yang terkubur dalam kumpulan data tak terstruktur yang sangat besar dan penuh teka-teki, sehingga mendorong permintaan akan aplikasi AI yang dapat memanfaatkan potensi yang belum terealisasi ini.
Dengan menggunakan jaringan saraf seperti CNN, RNN, dan BERT, data yang tidak terstruktur dapat dikonversi menjadi vektor fitur (alias embeddings), sebuah format data numerik yang dapat dibaca oleh mesin. Algoritme kemudian digunakan untuk menghitung kemiripan antara vektor menggunakan ukuran seperti kemiripan kosinus atau jarak Euclidean. Penyematan vektor dan pencarian kemiripan memungkinkan untuk menganalisis dan membangun aplikasi pembelajaran mesin menggunakan kumpulan data yang sebelumnya tidak dapat dibedakan.
Kemiripan vektor dihitung menggunakan algoritme yang sudah ada, namun, set data yang tidak terstruktur biasanya sangat besar. Ini berarti pencarian yang efisien dan akurat membutuhkan penyimpanan dan daya komputasi yang besar. Untuk mempercepat pencarian kemiripan dan mengurangi kebutuhan sumber daya, algoritme pencarian tetangga terdekat (ANN) digunakan. Dengan mengelompokkan vektor-vektor yang mirip, algoritme ANN memungkinkan untuk mengirimkan kueri ke kelompok vektor yang paling mungkin berisi vektor-vektor yang mirip, daripada mencari seluruh kumpulan data. Meskipun pendekatan ini lebih cepat, pendekatan ini mengorbankan tingkat akurasi. Memanfaatkan algoritme ANN memungkinkan pencarian vektor untuk menyisir miliaran wawasan model pembelajaran mendalam dalam hitungan milidetik.
Apa saja aplikasi dari pencarian kemiripan vektor?
Pencarian kemiripan vektor memiliki aplikasi yang mencakup berbagai macam kecerdasan buatan, pembelajaran mendalam, dan skenario penghitungan vektor tradisional. Berikut ini adalah gambaran umum tingkat tinggi dari berbagai aplikasi pencarian kemiripan vektor:
Perdagangan elektronik: Pencarian kemiripan vektor memiliki penerapan yang luas dalam e-commerce, termasuk mesin pencari gambar terbalik yang memungkinkan pembeli untuk mencari produk menggunakan gambar yang diambil pada ponsel cerdas mereka atau ditemukan secara online. Selain itu, rekomendasi yang dipersonalisasi berdasarkan perilaku pengguna, minat, riwayat pembelian, dan banyak lagi dapat dilayani oleh sistem pemberi rekomendasi khusus yang mengandalkan pencarian vektor.
Keamanan Fisik & Siber: Video AI hanyalah salah satu dari sekian banyak aplikasi untuk pencarian kemiripan vektor di bidang keamanan. Skenario lain termasuk pengenalan wajah, pelacakan perilaku, otentikasi identitas, kontrol akses cerdas, dan banyak lagi. Selain itu, pencarian kemiripan vektor memainkan peran penting dalam menggagalkan serangan siber yang semakin umum dan canggih. Misalnya, pencarian kemiripan kode dapat digunakan untuk mengidentifikasi risiko keamanan dengan membandingkan sebuah perangkat lunak dengan basis data kerentanan atau malware yang telah diketahui.
Mesin Rekomendasi: Mesin rekomendasi adalah sistem yang menggunakan pembelajaran mesin dan analisis data untuk menyarankan produk, layanan, konten, dan informasi kepada pengguna. Perilaku pengguna, perilaku pengguna yang serupa, dan data lainnya diproses menggunakan metode pembelajaran mendalam untuk menghasilkan rekomendasi. Dengan data yang cukup, algoritme dapat dilatih untuk memahami hubungan antar entitas dan menemukan cara untuk merepresentasikannya secara mandiri. Sistem rekomendasi memiliki penerapan yang luas dan merupakan sesuatu yang sudah digunakan orang setiap hari, termasuk rekomendasi konten di Netflix, rekomendasi belanja di Amazon, dan umpan berita di Facebook.
Chatbots: Secara tradisional, chatbots dibangun menggunakan grafik pengetahuan biasa yang membutuhkan kumpulan data pelatihan yang besar. Namun, chatbots yang dibangun menggunakan model pembelajaran mendalam tidak perlu melakukan praproses data - sebagai gantinya, peta antara pertanyaan dan jawaban yang sering dibuat. Dengan menggunakan model pemrosesan bahasa alami (NLP) yang telah dilatih sebelumnya, vektor fitur dapat diekstraksi dari pertanyaan dan kemudian disimpan dan ditanyakan menggunakan platform manajemen data vektor.
Pencarian Gambar atau Video: Jaringan pembelajaran mendalam telah digunakan untuk mengenali pola visual sejak akhir tahun 1970-an, dan tren teknologi modern telah membuat pencarian gambar dan video menjadi lebih kuat dan mudah diakses daripada sebelumnya.
Pencarian Kemiripan Bahan Kimia: Kemiripan kimiawi adalah kunci untuk memprediksi sifat-sifat senyawa kimia dan menemukan bahan kimia dengan atribut tertentu, sehingga sangat diperlukan untuk pengembangan obat baru. Sidik jari yang diwakili oleh vektor fitur dibuat untuk setiap molekul, dan kemudian jarak antar vektor digunakan untuk mengukur kemiripan. Penggunaan AI untuk penemuan obat baru mendapatkan momentum di industri teknologi, dengan ByteDance (perusahaan induk TikTok di Cina) mulai merekrut talenta di bidang ini.
Perangkat lunak dan sumber daya pencarian kemiripan vektor sumber terbuka.
Hukum Moore, komputasi awan, dan penurunan biaya sumber daya merupakan tren makro yang membuat kecerdasan buatan lebih mudah diakses daripada sebelumnya. Berkat perangkat lunak sumber terbuka dan sumber daya lain yang tersedia untuk umum, membangun aplikasi AI/ML tidak hanya untuk perusahaan teknologi besar. Di bawah ini kami memberikan gambaran singkat tentang Milvus, sebuah platform manajemen data vektor sumber terbuka, dan juga menyoroti beberapa set data yang tersedia untuk umum yang membantu menempatkan AI dalam jangkauan semua orang.
Milvus, platform manajemen data vektor sumber terbuka
Milvus adalah platform manajemen data vektor sumber terbuka yang dibuat khusus untuk data vektor berskala besar. Didukung oleh Facebook AI Similarity Search (Faiss), Non-Metric Space Library (NMSLIB), dan Annoy, Milvus menyatukan berbagai alat canggih dalam satu platform sekaligus memperluas fungsionalitas mandiri mereka. Sistem ini dibuat khusus untuk menyimpan, memproses, dan menganalisis kumpulan data vektor yang besar, dan dapat digunakan untuk membangun semua aplikasi AI (dan banyak lagi) yang disebutkan di atas.
Informasi lebih lanjut tentang Milvus dapat ditemukan di situs webnya. Tutorial, instruksi untuk menyiapkan Milvus, pengujian benchmark, dan informasi tentang membangun berbagai aplikasi yang berbeda tersedia di bootcamp Milvus. Para pengembang yang tertarik untuk memberikan kontribusi pada proyek ini dapat bergabung dengan komunitas sumber terbuka Milvus di GitHub.
Dataset publik untuk kecerdasan buatan dan pembelajaran mesin
Bukan rahasia lagi bahwa raksasa teknologi seperti Google dan Facebook memiliki keunggulan data dibandingkan perusahaan-perusahaan kecil, dengan beberapa pakar bahkan mengadvokasi "mandat berbagi data progresif" yang akan memaksa perusahaan yang melebihi ukuran tertentu untuk membagikan beberapa data anonim dengan saingan yang lebih kecil. Untungnya, ada ribuan set data yang tersedia untuk umum yang dapat digunakan untuk proyek AL/ML:
Dataset Pidato Rakyat: Dataset dari ML Commons ini menawarkan dataset pidato terbesar di dunia, dengan lebih dari 87.000 jam pidato yang ditranskrip dalam 59 bahasa yang berbeda.
Repositori Pembelajaran Mesin UC Irvine: University of California di Irvine mengelola ratusan dataset publik dalam upaya membantu komunitas pembelajaran mesin.
Data.gov: Pemerintah AS menawarkan ratusan ribu set data terbuka yang mencakup pendidikan, iklim, COVID-19, dan banyak lagi.
Eurostat: Kantor statistik Uni Eropa menyediakan set data terbuka yang mencakup berbagai industri mulai dari ekonomi dan keuangan hingga populasi dan kondisi sosial.
Harvard Dataverse: Harvard Dataverse Repository adalah repositori data gratis yang terbuka untuk para peneliti di berbagai disiplin ilmu. Banyak set data yang bersifat publik, sementara yang lain memiliki ketentuan penggunaan yang lebih terbatas.
Meskipun daftar ini sama sekali tidak lengkap, ini merupakan titik awal yang baik untuk menemukan berbagai macam set data terbuka yang sangat luas. Untuk informasi lebih lanjut tentang dataset publik serta memilih data yang tepat untuk proyek ML atau data science Anda berikutnya, lihat posting Medium ini.
Untuk mempelajari lebih lanjut tentang pencarian kemiripan vektor, lihat sumber-sumber berikut:
- Berkat Milvus, Siapapun Dapat Membangun Mesin Pencari untuk 1+ Miliar Gambar
- Milvus Dibangun untuk Pencarian Kemiripan Vektor Berskala Besar (Pikirkan Triliun)
- Mempercepat Pencarian Kemiripan pada Data yang Sangat Besar dengan Pengindeksan Vektor
- Mempercepat Pencarian Kemiripan pada Data yang Sangat Besar dengan Pengindeksan Vektor (Bagian II)
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word