當我們正討論如何用AI推動產業升級、改變未來生活時,不法分子也在研究AI技術,并通過各種手段非法牟利。近日,騰訊守護者計劃安全團隊協助警方打掉市面上最大打碼平臺“快啊答題”,挖掘出一條從撞庫盜號、破解驗證碼到販賣公民信息、實施網絡詐騙的全鏈條黑產。而在識別驗證碼這一關鍵環節,黑產竟已用上AI人工智能技術。該團伙運用AI技術訓練機器,極大提升了單位時間內識別驗證碼的數量,2017年一季度打碼量達到259億次,且識別驗證碼的精準度超過80%。借此案件,我們也深入研究AI打碼平臺黑產領域,對其犯罪模式進行剖析。
打碼平臺:對抗驗證碼系統而生
對于“驗證碼”,大家并不陌生。在登錄各網站、平臺、APP時,經常見到。常見的“驗證碼”有“字符式”、“字符+點選式”、“滑塊拼圖式”和難度逆天的“12306式”。

字符式 字符+點選式

滑塊拼圖式 12306式
驗證碼(CAPTCHA ,Completely Automated Public Turing Test to Tell Computers and Humans Apart,全自動區分計算機和人類的圖靈測試),是區分計算機和人類的一種程序算法,簡單解釋是一個答題的驗證。系統向請求發起方提問,能正確回答的即是人類,反之則為機器。從安全角度講,CAPTCHA經過不斷演化,已成為目前國內外各大互聯網公司用于對抗網絡黑產惡意行為(如惡意登錄)的驗證碼安全策略,即我們現在俗稱的驗證碼系統。
在網絡黑產中,不法分子竊取網站數據庫后,需要確認帳號對應的密碼是否正確,將有價值的數據通過驗證的方式篩選出來,這一過程黑話叫“曬密”,意即撞庫。而“曬密”最核心的障礙就是互聯網公司設置的驗證碼安全體系。每天面對數以億計的“曬密”需求,黑產分子不可能人工逐個識別,而是需要提高“曬密”效率,批量識別。“打碼平臺”這一專業服務便應運而生。
“打碼平臺”會與“曬密”軟件作者合作:
1) 黑產團伙把盜取的帳號密碼信息導入到“曬密”軟件,“曬密”軟件模擬登錄協議,向互聯網公司服務器發送登錄請求。
2) 服務器檢測到登錄異常時,會下發驗證碼,進行安全策略攔截。
3) “曬密”軟件將收到的驗證碼圖片發送給“打碼平臺”,請求將圖片轉化為字符。
4) 打碼平臺后臺破解驗證碼,將字符結果返回“曬密”軟件,完成“曬密”(撞庫)流程。
5) 這些“曬密”后得到的用戶信息,則可能被騙子直接用于實施詐騙犯罪。
下面這張圖,可以看到“快啊答題”打碼平臺所涉及的從撞庫到曬密再到打碼的整個黑色產業鏈:

早期的打碼平臺,對驗證碼的識別基本是通過“人工+OCR降維識別圖片”完成。但是,互聯網公司的驗證碼安全策略升級后,包括出現像12306這樣識別難度高的驗證碼體系,“人工+OCR”方式的識別效率降低、成本升高,一段時期內,確實降低了黑產犯罪。
但是,黑產人員并不會因為一條路被堵死,就放棄犯罪,他們又想出了更前沿的手法來應對。目前市面上最大的 “快啊答題” 打碼平臺就是典型代表,他們運用目前最流行的人工智能AI技術訓練機器,大大提高了識別驗證碼的精準度,也極大提升了犯罪嫌疑人在單位時間內識別驗證碼的數量。通過這個打碼平臺管理后臺的統計信息顯示,2017年1-3月,其打碼量達到259億次,平臺累計打碼量超過1700億次。這套AI系統識別驗證碼成功率非常高,以下圖紅框標識處為例,當天的整體識別率會輸出成日志文件,通過隨機調取某日的日志文件,該日整體驗證碼識別率高達83.4%。

AI技術破解“曬密”低效難題
“快啊答題”打碼平臺基于主流AI深度學習Caffe框架,使用vgg16卷積核神經網絡模型,可以直接輸入原始圖像(避免了對圖像的復雜前期預處理),并能通過深度的機器學習來獲得較高的驗證碼識別率。

(分布式AI驗證碼識別系統簡易流程介紹)
由于不同方式生成的驗證碼風格迥異,且經常變換,為了實現精準識別,提高準確度,“快啊答題”收集了大量不同風格的樣本,并開發了驗證碼接收與分發模塊,輸入端對接打碼平臺,輸出端根據驗證碼類型輪詢選擇并推送到相應的驗證碼識別模型,驗證碼識別完成,返回驗證碼字符串到打碼平臺,打碼平臺確認是否識別正確,并將結果反饋至該分布式AI驗證碼識別系統進行進一步優化。

(圖為識別平臺自身的管理界面)
1、生成方法
打碼平臺犯罪團伙通過以下步驟,迅速低成本地獲得海量驗證碼訓練數據:
(1)從互聯網公開渠道獲取字體樣本,輸出數字、字母、字母+數字、中文等不同類型驗證碼識別模型,獲得的公開字體庫,并且搜集背景圖片,如壁紙/風景類圖片。
(2)通過工具將不同字體的驗證碼進行加工處理(加干擾、變形等)后,寫入到背景圖片中,生成帶標定的訓練樣本。
由于目標問題是不定長度的字符序列識別,生成的訓練樣本的字符個數也是不定長度的,可以是1-6個任意字符,最多支持6個標簽的識別。黑產人員用一系列的驗證碼生成工具,來生成不同風格的驗證碼圖片,如下圖:

(作者通過工具生成的訓練樣本示例)
(3)打碼平臺犯罪團伙基于收集到的超過10000個字體庫,通過網絡采集和字庫背景生成訓練樣本,針對驗證碼識別業務,積累超過5000萬的樣本庫,覆蓋常見驗證碼模型。由此訓練得到的模型具有非常強的適用性,即便新型的驗證碼變種,也可達到較高識別率。
2、多標簽訓練
“快啊答題”打碼平臺的AI系統,能將一張驗證碼圖片作為一個整體,將單字識別轉換成單圖多標簽、端到端的識別出驗證碼中的所有字符。
針對網絡上主流驗證碼圖片一般不超過6個字符的特點,該AI系統設計6個標簽的分類,對于少于6個字符的驗證碼圖片,未含字符的標簽會判定為負樣本不予輸出。因此,最終的輸出結果只包含給定字符的有效標簽。也就是,原本的OCR識別只能簡單識別圖形上的文字,而在文字變化后識別率就大大降低。而使用Caffe框架,就可以對圖形內的局部特征進行分類提取。
“快啊答題”打碼平臺基于海量訓練樣本,建立了多標簽分類網絡來訓練驗證碼的識別網絡。漢字的網絡訓練周期為1個月左右,而英文+數字的網絡訓練周期則只需要1個星期。
另外,“快啊答題”打碼平臺還會通過搜集反饋回來的失敗樣本,以及人工打碼的標定數據,來實時訓練和更新識別網絡,不斷迭代訓練進行優化,進一步提高神經網絡模型的識別能力。
在以往的對抗黑產過程中,由于犯罪行為認定、法律適用等問題,即使對下游從事詐騙的團伙開展打擊,但在針對“打碼平臺”這一犯罪上游環節上,能真正認定為共同犯罪,形成的實際判例非常少,無法實現全鏈條打擊。下游團伙借助“打碼平臺”死灰復燃,也是多類網絡黑灰產屢禁不止的原因之一。在市場上,“快啊答題”打碼平臺通過對接曬密軟件,根據打碼數量收取下游使用曬密軟件的黑產犯罪團伙費用,而后再按比例進行分成。
像 “快啊答題” 這類的打碼平臺,不僅破壞了互聯網公司的驗證碼安全體系,也直接或間接的為更多網絡黑產提供了幫助。在騰訊守護者計劃安全團隊和警方的共同努力下, “快啊答題” 平臺負責人及核心人員被公安機關以提供侵入、非法控制計算機信息系統程序工具罪批準逮捕。
|