當(dāng)我們正討論如何用AI推動(dòng)產(chǎn)業(yè)升級(jí)、改變未來生活時(shí),不法分子也在研究AI技術(shù),并通過各種手段非法牟利。近日,騰訊守護(hù)者計(jì)劃安全團(tuán)隊(duì)協(xié)助警方打掉市面上最大打碼平臺(tái)“快啊答題”,挖掘出一條從撞庫盜號(hào)、破解驗(yàn)證碼到販賣公民信息、實(shí)施網(wǎng)絡(luò)詐騙的全鏈條黑產(chǎn)。而在識(shí)別驗(yàn)證碼這一關(guān)鍵環(huán)節(jié),黑產(chǎn)竟已用上AI人工智能技術(shù)。該團(tuán)伙運(yùn)用AI技術(shù)訓(xùn)練機(jī)器,極大提升了單位時(shí)間內(nèi)識(shí)別驗(yàn)證碼的數(shù)量,2017年一季度打碼量達(dá)到259億次,且識(shí)別驗(yàn)證碼的精準(zhǔn)度超過80%。借此案件,我們也深入研究AI打碼平臺(tái)黑產(chǎn)領(lǐng)域,對(duì)其犯罪模式進(jìn)行剖析。
打碼平臺(tái):對(duì)抗驗(yàn)證碼系統(tǒng)而生
對(duì)于“驗(yàn)證碼”,大家并不陌生。在登錄各網(wǎng)站、平臺(tái)、APP時(shí),經(jīng)常見到。常見的“驗(yàn)證碼”有“字符式”、“字符+點(diǎn)選式”、“滑塊拼圖式”和難度逆天的“12306式”。

字符式 字符+點(diǎn)選式

滑塊拼圖式 12306式
驗(yàn)證碼(CAPTCHA ,Completely Automated Public Turing Test to Tell Computers and Humans Apart,全自動(dòng)區(qū)分計(jì)算機(jī)和人類的圖靈測試),是區(qū)分計(jì)算機(jī)和人類的一種程序算法,簡單解釋是一個(gè)答題的驗(yàn)證。系統(tǒng)向請(qǐng)求發(fā)起方提問,能正確回答的即是人類,反之則為機(jī)器。從安全角度講,CAPTCHA經(jīng)過不斷演化,已成為目前國內(nèi)外各大互聯(lián)網(wǎng)公司用于對(duì)抗網(wǎng)絡(luò)黑產(chǎn)惡意行為(如惡意登錄)的驗(yàn)證碼安全策略,即我們現(xiàn)在俗稱的驗(yàn)證碼系統(tǒng)。
在網(wǎng)絡(luò)黑產(chǎn)中,不法分子竊取網(wǎng)站數(shù)據(jù)庫后,需要確認(rèn)帳號(hào)對(duì)應(yīng)的密碼是否正確,將有價(jià)值的數(shù)據(jù)通過驗(yàn)證的方式篩選出來,這一過程黑話叫“曬密”,意即撞庫。而“曬密”最核心的障礙就是互聯(lián)網(wǎng)公司設(shè)置的驗(yàn)證碼安全體系。每天面對(duì)數(shù)以億計(jì)的“曬密”需求,黑產(chǎn)分子不可能人工逐個(gè)識(shí)別,而是需要提高“曬密”效率,批量識(shí)別。“打碼平臺(tái)”這一專業(yè)服務(wù)便應(yīng)運(yùn)而生。
“打碼平臺(tái)”會(huì)與“曬密”軟件作者合作:
1) 黑產(chǎn)團(tuán)伙把盜取的帳號(hào)密碼信息導(dǎo)入到“曬密”軟件,“曬密”軟件模擬登錄協(xié)議,向互聯(lián)網(wǎng)公司服務(wù)器發(fā)送登錄請(qǐng)求。
2) 服務(wù)器檢測到登錄異常時(shí),會(huì)下發(fā)驗(yàn)證碼,進(jìn)行安全策略攔截。
3) “曬密”軟件將收到的驗(yàn)證碼圖片發(fā)送給“打碼平臺(tái)”,請(qǐng)求將圖片轉(zhuǎn)化為字符。
4) 打碼平臺(tái)后臺(tái)破解驗(yàn)證碼,將字符結(jié)果返回“曬密”軟件,完成“曬密”(撞庫)流程。
5) 這些“曬密”后得到的用戶信息,則可能被騙子直接用于實(shí)施詐騙犯罪。
下面這張圖,可以看到“快啊答題”打碼平臺(tái)所涉及的從撞庫到曬密再到打碼的整個(gè)黑色產(chǎn)業(yè)鏈:

早期的打碼平臺(tái),對(duì)驗(yàn)證碼的識(shí)別基本是通過“人工+OCR降維識(shí)別圖片”完成。但是,互聯(lián)網(wǎng)公司的驗(yàn)證碼安全策略升級(jí)后,包括出現(xiàn)像12306這樣識(shí)別難度高的驗(yàn)證碼體系,“人工+OCR”方式的識(shí)別效率降低、成本升高,一段時(shí)期內(nèi),確實(shí)降低了黑產(chǎn)犯罪。
但是,黑產(chǎn)人員并不會(huì)因?yàn)橐粭l路被堵死,就放棄犯罪,他們又想出了更前沿的手法來應(yīng)對(duì)。目前市面上最大的 “快啊答題” 打碼平臺(tái)就是典型代表,他們運(yùn)用目前最流行的人工智能AI技術(shù)訓(xùn)練機(jī)器,大大提高了識(shí)別驗(yàn)證碼的精準(zhǔn)度,也極大提升了犯罪嫌疑人在單位時(shí)間內(nèi)識(shí)別驗(yàn)證碼的數(shù)量。通過這個(gè)打碼平臺(tái)管理后臺(tái)的統(tǒng)計(jì)信息顯示,2017年1-3月,其打碼量達(dá)到259億次,平臺(tái)累計(jì)打碼量超過1700億次。這套AI系統(tǒng)識(shí)別驗(yàn)證碼成功率非常高,以下圖紅框標(biāo)識(shí)處為例,當(dāng)天的整體識(shí)別率會(huì)輸出成日志文件,通過隨機(jī)調(diào)取某日的日志文件,該日整體驗(yàn)證碼識(shí)別率高達(dá)83.4%。

AI技術(shù)破解“曬密”低效難題
“快啊答題”打碼平臺(tái)基于主流AI深度學(xué)習(xí)Caffe框架,使用vgg16卷積核神經(jīng)網(wǎng)絡(luò)模型,可以直接輸入原始圖像(避免了對(duì)圖像的復(fù)雜前期預(yù)處理),并能通過深度的機(jī)器學(xué)習(xí)來獲得較高的驗(yàn)證碼識(shí)別率。

(分布式AI驗(yàn)證碼識(shí)別系統(tǒng)簡易流程介紹)
由于不同方式生成的驗(yàn)證碼風(fēng)格迥異,且經(jīng)常變換,為了實(shí)現(xiàn)精準(zhǔn)識(shí)別,提高準(zhǔn)確度,“快啊答題”收集了大量不同風(fēng)格的樣本,并開發(fā)了驗(yàn)證碼接收與分發(fā)模塊,輸入端對(duì)接打碼平臺(tái),輸出端根據(jù)驗(yàn)證碼類型輪詢選擇并推送到相應(yīng)的驗(yàn)證碼識(shí)別模型,驗(yàn)證碼識(shí)別完成,返回驗(yàn)證碼字符串到打碼平臺(tái),打碼平臺(tái)確認(rèn)是否識(shí)別正確,并將結(jié)果反饋至該分布式AI驗(yàn)證碼識(shí)別系統(tǒng)進(jìn)行進(jìn)一步優(yōu)化。

(圖為識(shí)別平臺(tái)自身的管理界面)
1、生成方法
打碼平臺(tái)犯罪團(tuán)伙通過以下步驟,迅速低成本地獲得海量驗(yàn)證碼訓(xùn)練數(shù)據(jù):
(1)從互聯(lián)網(wǎng)公開渠道獲取字體樣本,輸出數(shù)字、字母、字母+數(shù)字、中文等不同類型驗(yàn)證碼識(shí)別模型,獲得的公開字體庫,并且搜集背景圖片,如壁紙/風(fēng)景類圖片。
(2)通過工具將不同字體的驗(yàn)證碼進(jìn)行加工處理(加干擾、變形等)后,寫入到背景圖片中,生成帶標(biāo)定的訓(xùn)練樣本。
由于目標(biāo)問題是不定長度的字符序列識(shí)別,生成的訓(xùn)練樣本的字符個(gè)數(shù)也是不定長度的,可以是1-6個(gè)任意字符,最多支持6個(gè)標(biāo)簽的識(shí)別。黑產(chǎn)人員用一系列的驗(yàn)證碼生成工具,來生成不同風(fēng)格的驗(yàn)證碼圖片,如下圖:

(作者通過工具生成的訓(xùn)練樣本示例)
(3)打碼平臺(tái)犯罪團(tuán)伙基于收集到的超過10000個(gè)字體庫,通過網(wǎng)絡(luò)采集和字庫背景生成訓(xùn)練樣本,針對(duì)驗(yàn)證碼識(shí)別業(yè)務(wù),積累超過5000萬的樣本庫,覆蓋常見驗(yàn)證碼模型。由此訓(xùn)練得到的模型具有非常強(qiáng)的適用性,即便新型的驗(yàn)證碼變種,也可達(dá)到較高識(shí)別率。
2、多標(biāo)簽訓(xùn)練
“快啊答題”打碼平臺(tái)的AI系統(tǒng),能將一張驗(yàn)證碼圖片作為一個(gè)整體,將單字識(shí)別轉(zhuǎn)換成單圖多標(biāo)簽、端到端的識(shí)別出驗(yàn)證碼中的所有字符。
針對(duì)網(wǎng)絡(luò)上主流驗(yàn)證碼圖片一般不超過6個(gè)字符的特點(diǎn),該AI系統(tǒng)設(shè)計(jì)6個(gè)標(biāo)簽的分類,對(duì)于少于6個(gè)字符的驗(yàn)證碼圖片,未含字符的標(biāo)簽會(huì)判定為負(fù)樣本不予輸出。因此,最終的輸出結(jié)果只包含給定字符的有效標(biāo)簽。也就是,原本的OCR識(shí)別只能簡單識(shí)別圖形上的文字,而在文字變化后識(shí)別率就大大降低。而使用Caffe框架,就可以對(duì)圖形內(nèi)的局部特征進(jìn)行分類提取。
“快啊答題”打碼平臺(tái)基于海量訓(xùn)練樣本,建立了多標(biāo)簽分類網(wǎng)絡(luò)來訓(xùn)練驗(yàn)證碼的識(shí)別網(wǎng)絡(luò)。漢字的網(wǎng)絡(luò)訓(xùn)練周期為1個(gè)月左右,而英文+數(shù)字的網(wǎng)絡(luò)訓(xùn)練周期則只需要1個(gè)星期。
另外,“快啊答題”打碼平臺(tái)還會(huì)通過搜集反饋回來的失敗樣本,以及人工打碼的標(biāo)定數(shù)據(jù),來實(shí)時(shí)訓(xùn)練和更新識(shí)別網(wǎng)絡(luò),不斷迭代訓(xùn)練進(jìn)行優(yōu)化,進(jìn)一步提高神經(jīng)網(wǎng)絡(luò)模型的識(shí)別能力。
在以往的對(duì)抗黑產(chǎn)過程中,由于犯罪行為認(rèn)定、法律適用等問題,即使對(duì)下游從事詐騙的團(tuán)伙開展打擊,但在針對(duì)“打碼平臺(tái)”這一犯罪上游環(huán)節(jié)上,能真正認(rèn)定為共同犯罪,形成的實(shí)際判例非常少,無法實(shí)現(xiàn)全鏈條打擊。下游團(tuán)伙借助“打碼平臺(tái)”死灰復(fù)燃,也是多類網(wǎng)絡(luò)黑灰產(chǎn)屢禁不止的原因之一。在市場上,“快啊答題”打碼平臺(tái)通過對(duì)接曬密軟件,根據(jù)打碼數(shù)量收取下游使用曬密軟件的黑產(chǎn)犯罪團(tuán)伙費(fèi)用,而后再按比例進(jìn)行分成。
像 “快啊答題” 這類的打碼平臺(tái),不僅破壞了互聯(lián)網(wǎng)公司的驗(yàn)證碼安全體系,也直接或間接的為更多網(wǎng)絡(luò)黑產(chǎn)提供了幫助。在騰訊守護(hù)者計(jì)劃安全團(tuán)隊(duì)和警方的共同努力下, “快啊答題” 平臺(tái)負(fù)責(zé)人及核心人員被公安機(jī)關(guān)以提供侵入、非法控制計(jì)算機(jī)信息系統(tǒng)程序工具罪批準(zhǔn)逮捕。
|