Zhentu - 基於 Milvus 的照片詐騙檢測器
封面圖片
本文作者為BestPay資深演算法工程師石焱、唐敏薇,翻譯:Rosie Zhang。
近年來,隨著電子商務和在線交易在全球範圍內的普及,電子商務詐騙也隨之蓬勃發展。騙徒利用電腦生成的照片代替真實照片通過網上商業平台的身份驗證,製造大量虛假賬戶,套取商家的優惠資訊(如會員禮品、優惠券、代幣等),給消費者和商家都帶來了無法挽回的損失。
面對大量的數據,傳統的風險控制方法已不再有效。為了解決這一問題,BestPay基於深度學習(DL)和數位影像處理(DIP)技術,創建了一款照片詐騙檢測器,即 Zhentu(中文意思是檢測圖像)。Zhentu 適用於各種涉及圖像識別的場景,其中一個重要的分支是偽造營業執照的識別。如果用戶提交的營業執照照片與平台照片庫中已有的另一張照片非常相似,則該用戶很可能在某處盜用了該照片,或者偽造了營業執照以達到欺詐目的。
傳統測量影像相似度的演算法,例如PSNR和 ORB,速度慢且不準確,只適用於離線任務。深度學習則能即時處理大規模的影像資料,是比對相似影像的終極方法。在 BestPay 研發團隊與Milvus 社群的共同努力下,Zhentu 開發了一套照片詐騙偵測系統。它的功能是透過深度學習模型將大量圖像資料轉換為特徵向量,並將其插入向量搜尋引擎Milvus。透過 Milvus,偵測系統能夠索引數以萬億計的向量,並在數千萬張圖片中有效檢索相似的照片。
跳到
臻圖概述
Zhentu是BestPay自主設計的多媒體視覺風險控制產品,深度整合了機器學習(ML)和神經網絡圖像識別技術。其內建的演算法可在使用者驗證時精準識別詐欺者,並在毫秒級反應。憑藉領先業界的技術和創新的解決方案,臻圖已獲得五項專利和兩項軟體著作權。目前已被多家銀行和金融機構採用,幫助提前識別潛在風險。
系統架構
BestPay目前擁有超過1000萬張營業執照照片,隨著業務的成長,實際數量仍在成倍成長。為了從如此龐大的資料庫中快速檢索出類似照片,臻圖選擇了Milvus作為特徵向量相似度計算引擎。照片詐騙檢測系統的大體結構如下圖所示。
img
程序可分為四個步驟:
影像預處理。預處理包括降噪、去噪、對比度增強等,既保證原始資訊的完整性,又能去除影像訊號中的無用資訊。
特徵向量萃取。使用經過特殊訓練的深度學習模型來萃取影像的特徵向量。將影像轉換成向量,以便進一步進行相似性搜尋,這是一項例行性的作業。
歸一化。將擷取的特徵向量歸一化,有助於提高後續處理的效率。
使用 Milvus 進行向量搜尋。將正規化的特徵向量插入 Milvus 資料庫,進行向量相似性搜尋。
部署
以下簡述 Zhentu 照片詐騙偵測系統的部署方式。
Milvus 系統架構
我們將Milvus 叢集部署在 Kubernetes 上,以確保雲端服務的高可用性與即時同步。一般步驟如下:
檢視可用資源。執行指令
kubectl describe nodes
,查看 Kubernetes 叢集可分配給已建立案例的資源。分配資源。執行指令
kubect`` -- apply xxx.yaml
,使用 Helm 為 Milvus 叢集元件分配記憶體和 CPU 資源。套用新組態。執行指令
helm upgrade my-release milvus/milvus --reuse-values -fresources.yaml
。將新組態套用至 Milvus 叢集。這樣部署的叢集不僅可以根據不同的業務需求調整系統容量,還能更好地滿足海量向量資料檢索的高性能要求。
您可以對Milvus 進行配置,針對不同業務場景下的不同類型資料優化搜索性能,如以下兩個示例所示。
在建立向量索引時,我們根據系統的實際使用情境進行如下的參數設定:
index = {"index_type": "IVF_PQ", "params": {"nlist": 2048}, "metric_type": "IP"}
IVF_PQ在量化向量的乘積之前,先執行 IVF 索引聚類。其特點是磁碟查詢速度快、記憶體消耗極低,符合 Zhentu 的實際應用需求。
此外,我們設定最佳搜尋參數如下:
search_params = {"metric_type": "IP", "params": {"nprobe": 32}}
由於向量在輸入 Milvus 前已經標準化,因此選擇內乘積 (IP) 來計算兩個向量之間的距離。實驗證明,使用 IP 比使用歐氏距離 (L2) 的召回率提高約 15%。
以上的例子說明,我們可以根據不同的業務情境和效能需求,測試和設定 Milvus 的參數。
此外,Milvus 不僅整合了不同的索引函式庫,也支援不同的索引類型和相似度計算方法。Milvus還提供了多國語言的官方SDK和豐富的API進行插入、查詢等操作,使我們的前端業務群組可以使用SDK對風控中心進行調用。
實際效能
到目前為止,照片詐欺檢測系統一直在穩定運行,幫助企業識別潛在的詐欺者。2021 年,全年檢出假證超過 2 萬張。在查詢速度方面,在數千萬向量中單一向量查詢的時間小於 1 秒,批量查詢的平均時間小於 0.08 秒。Milvus 的高效能搜尋能同時滿足企業對準確性和並發性的需求。
參考資料
Aglave P, Kolkure V S. 使用定向快速和旋轉簡算法實現高性能特徵提取方法[J].Int.J. Res.Technol, 2015, 4: 394-397.
關於BestPay
中國電信BestPay有限公司是中國電信的全資子公司。它經營支付和金融業務。BestPay致力於利用大數據、人工智能、雲計算等前沿技術賦能業務創新,提供智慧產品、風險控制解決方案等服務。截至 2016 年 1 月,這款名為 BestPay 的應用程式已吸引超過 2 億用戶,成為緊隨支付寶和微信支付的中國第三大支付平台運營商。
Like the article? Spread the word