Как платформа для создания коротких видеороликов Likee удаляет дубликаты видео с помощью Milvus
Изображение на обложке
Эта статья написана Синьяном Гуо и Баоюй Хань, инженерами компании BIGO, а переведена Рози Чжан.
BIGO Technology (BIGO) - одна из самых быстрорастущих сингапурских технологических компаний. Созданные на основе технологии искусственного интеллекта видеопродукты и сервисы BIGO завоевали огромную популярность во всем мире и насчитывают более 400 миллионов пользователей в более чем 150 странах. К ним относятся Bigo Live (прямые трансляции) и Likee (короткие видеоролики).
Likee - это глобальная платформа для создания коротких видео, где пользователи могут делиться своими моментами, выражать себя и общаться с миром. Чтобы повысить удобство использования и рекомендовать пользователям более качественный контент, Likee необходимо отсеивать дубликаты видео из огромного количества видеороликов, ежедневно генерируемых пользователями, что представляет собой непростую задачу.
В этом блоге рассказывается о том, как BIGO использует Milvus, векторную базу данных с открытым исходным кодом, для эффективного удаления дубликатов видео.
Перейти к:
- Обзор
- Рабочий процесс дедупликации видео
- Архитектура системы
- Использование Milvus для поиска по сходству
Milvus - это векторная база данных с открытым исходным кодом, обеспечивающая сверхбыстрый векторный поиск. Используя Milvus, компания Likee может завершить поиск в течение 200 мс, обеспечивая при этом высокий коэффициент отзыва. При этом, масштабируя Milvus по горизонтали, Likee успешно увеличивает пропускную способность векторных запросов, что еще больше повышает эффективность.
Как Likee выявляет дубликаты видео? Каждый раз, когда в систему Likee поступает видео с запросом, оно разрезается на 15-20 кадров, и каждый кадр преобразуется в вектор признаков. Затем Likee выполняет поиск в базе данных из 700 миллионов векторов, чтобы найти K наиболее похожих векторов. Каждый из K наиболее похожих векторов соответствует видео в базе данных. Далее Likee проводит уточняющий поиск, чтобы получить окончательные результаты и определить видео, которые необходимо удалить.
Давайте рассмотрим подробнее, как работает система дедупликации видео в Likee с помощью Milvus. Как показано на схеме ниже, новые видео, загруженные на Likee, записываются в Kafka, систему хранения данных, в режиме реального времени и потребляются потребителями Kafka. Векторы признаков этих видео извлекаются с помощью моделей глубокого обучения, где неструктурированные данные (видео) преобразуются в векторы признаков. Эти векторы признаков будут упакованы системой и отправлены аудитору сходства.
Архитектура системы дедупликации видео Likee
Извлеченные векторы признаков будут проиндексированы Milvus и сохранены в Ceph, после чего будут загружены узлом запроса Milvus для дальнейшего поиска. Соответствующие видеоидентификаторы этих векторов признаков также будут одновременно храниться в TiDB или Pika в зависимости от фактических потребностей.
Использование базы данных векторов Milvus для поиска сходства
При поиске похожих векторов миллиарды существующих данных, а также большое количество новых данных, генерируемых каждый день, создают большие проблемы для функциональности системы векторного поиска. После тщательного анализа компания Likee выбрала для поиска сходства векторов распределенную систему векторного поиска Milvus, обладающую высокой производительностью и высоким коэффициентом отзыва.
Как показано на схеме ниже, процедура поиска сходства происходит следующим образом:
Сначала Milvus выполняет пакетный поиск, чтобы вспомнить 100 лучших похожих векторов для каждого из нескольких векторов признаков, извлеченных из нового видео. Каждый похожий вектор привязывается к соответствующему идентификатору видео.
Во-вторых, сравнивая идентификаторы видео, Milvus удаляет дублирующие видео и извлекает векторы признаков оставшихся видео из TiDB или Pika.
Наконец, Milvus рассчитывает и оценивает сходство между каждым набором полученных векторов признаков и векторами признаков запрашиваемого видео. В качестве результата возвращается идентификатор видео с наибольшей оценкой. На этом поиск сходства видео завершен.
Процедура поиска сходства
Будучи высокопроизводительной векторной поисковой системой, Milvus проделал огромную работу в системе дедупликации видео Likee, значительно стимулируя рост бизнеса BIGO по производству короткого видео. Что касается видеобизнеса, то существует множество других сценариев, в которых можно применить Milvus, например, блокировка нелегального контента или персонализированные видеорекомендации. BIGO и Milvus надеются на дальнейшее сотрудничество в новых областях.
Try Managed Milvus for Free
Zilliz Cloud is hassle-free, powered by Milvus and 10x faster.
Get StartedLike the article? Spread the word