論爬蟲持久戰

2020-01-01 19895人圍觀 ,發現 1 個不明物體 數據安全

一、爬蟲還是你認識的那只爬蟲嗎?

1、好爬蟲,壞爬蟲

 機器人流量再次戰勝人類,主宰互聯網世界!!!

據國際知名金融廣告服務平臺提供商Dianomi的報告《2018 Robot traffic report》的數據,在互聯網上人類流量僅僅占了48.2%,也就是說,一個頁面的10000個點擊里面,大約5100個來自機器人。在航旅票務等行業,熱門數據接口中甚至有超過95% 的流量是來自機器人。

該報告將非人類產生的網絡流量統稱為“機器人流量”(Bot Traffic),其中的“機器人”就是指自動化執行的程序—也就是我們俗稱的“爬蟲”,通常用于自動化批量執行特定的任務,比如搜索引擎用來檢索網站的爬蟲機器人、航空公司網站的刷票占座程序、政府信息公開網站上抓取數據的程序等。

搜索引擎是最早誕生的“好爬蟲”,它爬取互聯網上的所有信息,幫助用戶進行快速的信息檢索,為用戶提升效率的同時也為網站帶來流量。行業就此專門定義了robots.txt文件,成為互聯網各方和諧共處的君子協定。然而科技并不總是向善的,大量“變異”的爬蟲很快充斥網絡,通過模擬正常用戶活動和行為,大肆進行數據竊取、資源占用、刷量刷單、薅羊毛等違法違規操作,這些就是我們今天文章的主角-“壞爬蟲”。

據Dianomi的報告顯示,好爬蟲主要分為以下幾類:

監控機器人:用于監控網站的可用性和各種在線功能的正常運行;

商業數據抓取:用于商業化的數字營銷工具、網站數據統計等,例如Alexa;

搜索引擎爬蟲:各大搜索引擎的大量爬蟲機器人,用于檢索海量信息和網站;

信息流抓取:分布在網站和應用程序中,抓取有用信息展示給用戶看,例如微博。

從網絡流量占比上來看,壞爬蟲一直碾壓好爬蟲,占了總體流量的28.9%,貌似并不是那么駭人聽聞,但請注意,這是“平均值”,在票務、電子政務、電商、金融等行業,這個比例遠超你的想象。

2、智能化網絡機器人

隨著商業競爭加劇和AI技術飛速升級,在利益的驅使下,壞爬蟲已經“進化”成網絡上的一個全新物種:智能化網絡機器人,其技術是先進的、意圖是邪惡的、模擬人類的手段是高超的、進化的速度是迅猛的,因此給個人用戶、商業平臺、政府機構和全社會帶來的危害也是巨大的。

智能化網絡機器人身上通常具有如下幾類“DNA”:

批量:爬蟲危害性巨大的核心原因,是其能夠以快速、持續、大量的模式形成傷害。

高并發:利用云端基礎設施或者IDC機器集群,形成極高的并發訪問能力。政府開放查詢個人傳票信息的某網站曾在今年4月被爬的無法對外服務,隨后發布公告停機升級;

速度快:基于上述特點,使得爬蟲可以在短時間內形成超量的訪問,某移動電商平臺曾在一夜之間被薅走坊傳百億規模的羊毛;

全天候:可以7x24x365的工作,秒殺一切996,甚至為了逃避偵測,經常晝伏夜出、凌晨作案;

自動化:借助黑產工具和自動化腳本,爬蟲可以在完全無人看守和干預的情況下,模擬大部分人類行為并完成惡意任務。

黑產工具:貓池、手機農場、群控、打碼平臺等;

Bot腳本:復雜的腳本邏輯使得爬蟲不僅限于信息爬取等簡單任務,從拖庫撞庫、登錄測試,到圖片驗證碼破解、薅羊毛等所有任務都可以執行。

智能化:黑產“專家”經驗注入,AI技術加持,使得爬蟲具有了“智慧”。

“反反爬”策略:通過與平臺反爬策略的多次對抗,摸索出規律,對反爬規則直接破解或繞行,如面對IP封禁,直接使用IP代理池,且每個IP只用少數幾次;針對流量頻率偵測,爬蟲會通過多源低頻的方式進行爬取;

生物行為模擬:通過OCR技術破解簡單的數字和文字圖片驗證碼,面對更復雜的滑動驗證碼,使用puppeteer工具,結合人類拖動滑塊軌跡和速度的模擬,可以成功破解該類行為式驗證碼;

行為模式多變:不再使用單一邏輯和流程的腳本,而是通過離散算法生成動態腳本進行攻擊,讓平臺難以捕捉其行為規律。

二、技術無罪?數據風暴下的爬蟲危機

爬蟲技術本身是否違法?業界的普遍共識是:爬蟲技術作為互聯網時代普遍運用的網絡信息搜集技術,本身是技術中立的而不涉及違規違法和犯罪的問題,但是,如果爬蟲行為不合規、不正當,則可能涉嫌違法。

這個共識不僅存在于形而上的討論之中,現實中已經存在多例與爬蟲相關的法律訴訟與判決案例,如:被稱為大數據引發的不正當競爭第一案-新浪微博訴“脈脈”不正當競爭案,全國首例爬蟲行為入罪案-上海晟品網絡科技有限公通過爬蟲破解北京字節跳動公司的防范措施并非法獲取計算機信息系統數據案,百度公司訴北京奇虎公司違反爬蟲協議構成不正當競爭案,國家圖書館出版社與北京百度網訊科技有限公司侵害作品信息網絡傳播權糾紛案,浙江泛亞電子商務有限公司訴北京雅虎網咨詢服務有限公司等侵犯著作權糾紛案等。

近期,爬蟲話題又被重新推上熱議的風口浪尖,其緣起是金融行業的大數據亂象整治。在今年7月份,人民銀行科技司司長李偉就在“第四屆全球金融科技(北京)峰會”上指出,要糾正部分機構“有技術就濫用、有技術就任性”的亂象。隨后從9月份開始,一場規模浩大的監管風暴就席卷了大數據風控行業,在大數據風控行業中以爬蟲大量盜取信息數據的做法盛行,而違規使用、買賣數據則是導致隱私數據泄露等一系列問題的根源。

如何從法律層面界定爬蟲合法性的邊界呢?引用東南大學法學院教授劉艷紅的觀點:判斷爬蟲非法與合法,重點是從形式層面進行的。對爬蟲行為而言,既要遵循《網絡安全法》《個人信息保護法(草案)》等有關信息保護的國家規定所確立的合法性原則,也要結合爬蟲技術的Robots協議,將遵循該協議的爬蟲行為定性為善意爬取,將違反此協議的諸如破解反爬措施的行為定性為惡意爬取,從而綜合判斷爬蟲行為是否“以其他方法非法獲取公民個人信息”。合法性原則與爬蟲協議這一行業規則,即為判斷爬蟲行為是否非法的形式標準于此之外,還要對爬蟲行為進行實質的判斷,看行為人“以其他方法非法獲取公民個人信息”的行為對法益的侵害或威脅是否達到實質可罰的程度

由上可見,技術本無對錯,但爬蟲技術“濫用”導致的公民個人隱私泄露、企業間不正當競爭等問題,確實形成了侵害和威脅,涉嫌違法。除上述的數據安全風險之外,爬蟲濫用還會引發用戶身份盜用、交易欺詐、營銷欺詐、資源侵占等5大方面的風險。

1、數據安全風險

數據泄露:爬蟲從網頁和接口兩方面盜取數據。

政務信息:公積金、社保醫保、工商稅務、司法公安、交通海關、互聯網政務、企業數據、征信;

隱私信息:身份信息、學歷信息、消費記錄、借貸記錄、航旅記錄、互聯網行為記錄、通話記錄/通訊錄、醫療掛號、物流信息、房屋車輛等資產信息;

商業信息:航旅票務、酒店連鎖、簡歷招聘、UGC內容、新聞媒體、商品價格/評論、金融行情等。

數據破壞:惡意修改商品價格、商品有效期、license有效期等;

數據污染:機器流量數據影響數據統計準確率及用戶畫像精準度。

2、賬戶安全風險

身份是一種新的全球貨幣,這解釋了黑產為什么要優先利用寶貴的資源來測試和驗證不同行業背景的身份

批量垃圾注冊:基于2019年7月1日至2019年9月30日間,金融服務、電子商務、旅游、社交媒體、游戲和娛樂行業的情況,經分析全球有超過13億筆涵蓋賬戶注冊、登錄和支付的交易,發現高達五分之一的賬戶創建都是帶有欺詐性的;

賬號盜用和接管:拖庫撞庫、暴力破解、惡意登錄(通過社工等方式獲得了用戶和密碼信息,之后到各大平臺進行登錄嘗試,以驗證用戶是否注冊并查看用戶在該平臺的資產和權益)。

3、交易安全風險

盜轉盜刷黑產正在將大規模數據泄露中攫取的憑證貨幣化。全球網絡犯罪生態系統的深度連通性遠不止銷售被盜數據或信息共享,一次攻擊是另一次攻擊的前兆,利用被泄露的身份和付款憑證獲利才是黑產交易欺詐路線圖上的終極目標;

欺詐性交易:惡意退單、修改收貨地址、積分盜取等。

4、營銷/運營安全風險

惡意刷單(占庫存)/退單(騙賠償)、虛假投票/評論/轉發、推廣刷量作弊、刷票占座、廣告流量作弊、營銷活動薅羊毛等。

5、資源安全風險

行業競爭對手間的無序甚至惡意的競爭,導致了平臺的服務器資源也成為了被攻擊的對象。

資源占用:剛剛過去的雙十一期間流量井噴,這是剁手黨、黑產、競爭對手共同“狂歡”的時間,黑產和競爭對手利用大流量攻擊,惡意占用平臺的帶寬和計算資源,體驗卡頓甚至應用癱瘓會直接導致用戶流失,在這樣分分鐘可能有幾十上百億現金入賬的時刻,其造成的損失讓人扼腕。

三、爬蟲動了誰的蛋糕

根據國際權威機構面向機器人和欺詐相關的報告顯示,在全球范圍內遭遇惡意機器人及復雜/高級惡意機器人(即專業化程度極高的爬蟲)流量攻擊的典型行業有:金融、航旅票務、電商、營銷/廣告、教育、醫療等。

根據騰訊云和云鼎實驗室的安全研究報告顯示,在我國機器人流量聚集的TOP5行業分別是:出行、社交、電商、O2O、公共行政,而出行中尤其以航旅票務領域遭受爬蟲攻擊最為嚴重。

依據機器人的專業程度、對行業的危害程度、危害的行業覆蓋率等方面,本文對航旅票務、電子政務、電商等行業進行詳細闡述。

1、航旅票務 

自動拒絕庫存攻擊

一種新興的攻擊類型是針對機票預訂的自動拒絕庫存攻擊。對于旅行者來說,被攻擊的庫存會導致剩余座位的成本增加,或者耗盡低成本航空公司的庫存。這迫使消費者考慮購買更昂貴的替代品。對于活動票務,機器人程序可以預訂熱門活動的票務并以高價出售,從而對好客戶的總體體驗產生負面影響。

這種現象在激烈的行業競爭下并不顯得奇葩,各大航空公司在開通了相同的熱門航線后,也會選擇通過技術手段“引導”用戶選擇自家產品,比如通過爬蟲占據對手公司大部分票源,造成其無票可售或者僅剩高級倉位票后,乘客自然乖乖送上門。

黃牛搶占特價票

經常出游的用戶都知道,找到一些所謂的票務代理往往能夠拿到特價機票,美其名曰“尾票”。而這些特價票來自于哪呢?普通用戶為什么搶不到呢?這背后其實是黃牛利用航空公司的規則空子和爬蟲技術一直將低價票霸占在手中,普通用戶再怎么“拼手速”也是搶不到的。

具體來說,航空公司訂票流程中有30分鐘左右的帳期,即訂票后可以延遲支付,在該期間內這張票就不能對外銷售了。爬蟲就是利用了這一點,算好時間差,搶到票后就開賣,賣不出去就退票并二次搶票。

OTA 平臺互爬價格,獲取競爭先機

在航空公司提直降代、OTA行業競爭慘烈、網站獲客壓力增大的背景下,某程、某哪、某牛等OTA平臺大打價格戰,通過比別的平臺更低的票價來吸引客戶。而想要做到這一點,就必須實時了解友商的價格并調整自己的定價策略,爬蟲在這個時候就粉墨登場了。隨著幾個大平臺企業的合并,曾經硝煙彌漫的OTA互爬大戲暫時告一段落,但新興的后起之秀又將掀開新的波瀾。

積分權益竊取

隨著旅游業從線下向數字渠道轉移,欺詐也隨之轉移,關鍵領域之一就是針對全球在線旅游平臺不斷提升的營銷運營費用這塊大蛋糕的自動機器人,這些機器人以會員權益為重點欺詐對象,通過使用盜取的用戶身份憑證和支付憑證,將其寶貴的、來之不易的會員積分等權益輸送給接管其賬戶的黑產。

目前,黑產已經到了進行身份憑證變現的階段,相比于之前批量注冊垃圾賬戶等賬戶欺詐場景,積分等權益欺詐行為在近些年呈大幅上升趨勢。

巨量查詢導致航班查詢信息服務費激增

查詢和訂票的比例,即查訂比是航空業重要的運營指標。每一次航班信息的查詢,航空公司的平臺都需要調用中航信的接口,查訂比一旦超過規定比例,航空公司就需要向中航信繳納巨額費用,每年光是花在航班查詢上的信息服務成本就高達數千萬元甚至數億元。

查詢接口的信息服務費加上服務器資源的費用,如果超過了一定閾值,航空公司即使將一張票賣出去了,那么整體上對其盈利率也是有巨大沖擊的。

12306成為海量高并發系統的經典案例

春運是世界上規模最大的人類遷徙活動,春運期間利用搶票軟件買票已經成為移動互聯網時代的新習慣,搶票平臺往往會使用惡意爬蟲幫助用戶刷票、搶票。2018年春運期間,12306最高峰時段頁面瀏覽量達813.4億次,1小時最高點擊量59.3億次,平均每秒164.8萬次。其中的惡意爬蟲訪問占據了整個出行行業近90%的流量,給12306的運維造成了很大的負擔,極大擠占了普通用戶的資源和權益。12306在防爬蟲、防黃牛、提升服務器吞吐量、改善用戶購票體驗上投入大量精力,并取得卓越成果。

2、電子政務

據報告顯示,電子政務類惡意爬蟲流量主要分布在法院文書、知識產權、企業信息、信用信息等常規商業信息領域,醫療掛號數據也是一個備受關注的信息。

2019年的315晚會揭秘了一款“社保掌上通”APP,主持人現場在該APP上輸入***號、社保賬號、手機號等信息并完成注冊后,在未明示收集用戶社會保障號、社保查詢密碼等個人敏感信息的情況下,這些用戶敏感數據就被上傳到了第三方服務器。這種偽裝成官方APP并騙取用戶授權,通過API接口進行數據爬取形式在當下移動互聯網APP泛濫的背景下是屢見不鮮。

中國裁判文書網是一個記錄全國法律案底的政府信息公開網站。據傳有一個地下數據挖礦群,群里上千位“蟲師”群策群力主攻裁判文書網的爬蟲防護策略,甚至一些破解方法還作為開源項目放在了網上,導致該網站一度被爬到暫停對外服務。

為什么有這么多人對這些信息感興趣呢?我們可以從最近的金融行業大數據風暴背后看到一些端倪。

數據是金融機構進行信貸風控的關鍵依據。除了自身業務上積累的客戶和交易數據外,面向傳統金融業務未覆蓋的“零征信”、“薄征信”人群,金融機構還需接入人行征信、百行征信等官方數據,以及大量“第三方數據”。為了滿足合規等保的要求,部分金融機構快速上馬了風控系統并接入了“第三方數據“,忽略了數據合規性和穩定性問題,而這些第三方數據里就包括了法院(失信被執行人、判決等)、公積金、社保、工商注冊、稅務等信息。

對于提供這些“第三方數據”的所謂“大數據風控公司”來說,低成本獲取這些數據的最佳途徑就是到電子政務平臺上通過接口爬取,進行二次加工和包裝,謀取巨額利益。惡意機器人流量極大占用了政府公共平臺的資源,影響了正常用戶的訪問。同時,信息販賣行為極大侵害了民眾權益,也為金融機構的風控系統埋下了隱患。

3、金融

前面提到,金融機構做信貸、消費金融等業務,除了自身歷史業務數據可以覆蓋“老客戶“征信之外,針對“新客戶”的征信,其數據主要來自人行征信、百行征信等官方征信機構,而人行征信數據其實只覆蓋了3.8億左右的自然人,覆蓋率較低,還有幾億人只有簡單的身份數據;百行征信由于成立不久以及各大股東之間博弈,數據量也極其有限。

基于上述背景,部分消金機構、互金平臺在“大干快上”的思想驅使下,為了能夠快速上業務、見效果,“飲鴆止渴”式的接入了第三方大數據風控公司的服務,甚至大量銀行也接入了此類所謂的“助貸產品”,部分頭部機構還自建了爬蟲團隊,專門服務于信貸業務。殊不知,這些把金融機構最核心風控能力的半條命交給“爬蟲”的做法,為自己種下了不可逃避的苦果。

11月14日,公安部在京召開新聞發布會,通報全國公安機關開展“凈網2019”專項行動工作情況及典型案例,揭開了業內一直在猜測的本次大數據風暴背后的真實原因。通報稱對“套路貸”犯罪開展了全鏈條式打擊,系列行動的起點是今年在黑龍江省七臺河市偵破的“7.30”套路貸專案。案發后,七臺河市公安局成立專案組,從本地被“套路貸”受害者和催收團伙入手,偵獲了一條集實施“套路貸”犯罪團伙、催收團伙以及幫助“套路貸”犯罪的技術服務商、數據支撐服務商、支付服務商完整犯罪鏈條。其中,技術服務商為 “套路貸”研發App,數據支撐服務商利用爬蟲技術非法獲取公民個人信息、為“套路貸”推廣和放貸風險評估提供數據支撐,第三方支付公司則為“套路貸”開通資金結算渠道和支付服務。

不僅公安部門有雷厲風行的行動,監管部門也緊隨其后,多地中國人民銀行分支機構向轄內銀行等金融機構發出與大數據風控公司合作情況的自查和上報通知,中國互聯網金融協會也向會員單位下發通知,要求“不與違規收集和使用個人信息的第三方開展數據合作”。

根據億歐智庫的一份報告顯示,國內共有近600家大數據風控公司,其中近7成的公司成立于2013至2017年,基本與P2P、消費貸等互金業務的瘋狂發展同步崛起。隨著公安打擊和監管加碼,大部分放貸公司和大數據風控公司出現了業務縮緊甚至停擺的現象,其直接原因就是在利益的驅使下濫用了爬蟲技術、濫用了數據,侵害了公眾利益:一是未經授權爬取個人及企業數據;二是超越法律及用戶隱私協議規定的范圍獲取數據和使用數據;三是非法將爬取的數據進行存儲和倒賣。

作為風控體系基礎的(第三方)數據停了,互金/消金公司的業務大受影響,甚至一些銀行的業務也受到了輕微影響,這個問題該如何解決?本文建議從四方面入手:

1.加強金融機構自主可控的綜合風控體系建設:風控反欺詐之戰從來不是某一種技術或方法的單打獨斗,而是一場集數據、技術和機制于一體的綜合防御戰。其中,數據是風控反欺詐體系建設的支持部分,而技術是打贏風控反欺詐之戰的重要部分,機制則是反黑灰產實戰經驗的體現,是優化風控反欺詐效果、提升風控反欺詐能力的重要保障,這三者為相輔相成、相互促進的關系;

2.挖掘自身的數據“石油”,并不斷自建場景積累數據,自給自足:金融機構自身擁有大規模、高質量的客戶和業務數據,即使不能將數據直接用于新客戶的征信,但這些數據作為有標簽的數據,也可以進一步深入挖掘和治理,對客戶畫像刻畫、風控模型訓練有著極其重要的作用。另外,對于零售金融業務所需要的大量客戶個人消費和行為數據,可以向BATJTMD等互聯網平臺學習,構建大量線上的具有支付、分期等金融屬性的場景,比如電商、O2O等,通過運營這些場景積累數據;同時,基于開放銀行理念,讓大量的生態合作伙伴構建場景,機構輸出核心能力,在這個過程中,也可以通過極其豐富和普惠的場景拿到海量數據;

3.繼續推動征信國家隊的發展壯大:人行征信系統已經推出了第二代,其數據規模和質量得到了大幅提升;百行征信也在推動著互金/消金機構的接入,未來會有更多的數據沉淀下來;

4.重啟爬蟲,讓其在監管和法律的籠子里發展:大數據風控行業長期處于缺乏有效監管的狀態,未來需要推動相關監管機制完善,加強金融行業數據采集和使用的治理,健全各類執行層面的標準規則。近期正在廣泛征詢意見的《個人金融信息(數據)保護試行辦法》就是一個好的苗頭。

4、電商

電商行業中的典型爬蟲危害包括:商品信息爬取、批量注冊、欺詐交易、虛假交易、薅羊毛、商家刷單騙補貼、商家刷量/刷信譽、惡意差評等,下面針對兩個具體場景進行說明:

欺詐性交易和薅羊毛

傳統電商和線下零售商在發展路線上逐漸走向了一統,即線上和線下的融合。為了增強用戶體驗、提升銷售轉化,大多數電商平臺都簡化了購買路徑,鼓勵消費者創建帳戶并存儲支付詳細信息;同時為了與客戶建立密切的關系,電商平臺日常會經常性地推出折扣、紅包、返利等運營活動。

這吸引了黑產利用爬蟲技術竊取用戶身份憑證和支付憑證,并隨后對這些賬戶進行接管。根據Shape Security公司發布的一份全球身份信息泄露報告顯示,電商網站 91% 的登錄流量來自黑客的爬蟲撞庫攻擊,這些攻擊在“雙十一”等大促活動期間更加頻繁。因為對于數字經濟來說,身份是真正的貨幣,這在零售和電商領域是顯而易見的。

隨后黑產要么利用接管的賬戶進行欺詐性交易,比如盜刷購物、退單騙取運費險、積分轉贈,要么進行批量虛假注冊,騙取新用戶權益。

商品信息爬取

根據云鼎實驗室的報告顯示,由于商業模式的差異,爬取商品信息、價格和評價等信息的流量分布為:C2C 類電商平臺由于中小賣家眾多,商品數量遠多于 B2C 類電商,支撐了電商類惡意爬蟲近90%流量;B2C 類電商加起來占10%。

這些信息被爬取后會被用于:競爭對手間的價格競爭,通過惡意占庫存和惡意退單操作阻礙商家經營,完成用戶導流返利套現等,對電商平臺與合法商家造成了極壞的影響。

5、社交

社交平臺已經成為用戶虛擬生活的核心場所,然而大量社交平臺對用戶隱私和身份安全的保護十分薄弱,這也成為了黑產進行拖庫撞庫、登錄測試的重要試驗場。

普通的黑產拿到用戶信息后通常執行的是身份憑證變現操作,而別有用心的團體甚至可以將其轉化為政治事件。全球最惡劣的數據泄露事件就是英國劍橋分析公司濫用5000萬Facebook用戶數據的事件,其通過數據分析預測用戶的喜好和傾向,從而形成干預選舉的推送內容,潛移默化中就改變了一個人的政治傾向,甚至影響了整個國家的政治穩定與公平。

四、反爬與反反爬-一場曠日持久的戰斗

反爬與反反爬,反反爬與反反反爬……說起來像繞口令一樣,其體現的是爬蟲江湖的對抗升級,在這場曠日持久的對弈中,雙方各自形成了一套武器庫,但就像矛盾之爭,永遠也沒有一定的強弱之分,下面我們就從反爬者的視角分析一下當前常見的技術及局限性。

1、常見的反爬手段與局限性分析

通常的反爬蟲方案都包括兩個核心部分,即“識別爬蟲–>處理爬蟲”(有點像把大象裝冰箱分幾步),下圖從“識別”和“防御”兩個維度對反爬手段進行了總結。

2、當前反爬解決方案的弊端

面對肆虐的爬蟲,很多安全企業都推出了反爬解決方案,目標單純指向了降低爬蟲的流量,或者是阻止一切爬蟲的攻擊,但反爬的終極目標是為了保證業務發展,因此不能忽略業務目標達成、用戶體驗提升、防控效果可持續性等更為底層和關鍵的問題

通過綜合分析市場上主流反爬解決方案,總結出了這些傳統解決方案的十一大弊端

關注技術和工具,忽略業務規則

現有解決方案中更多是從技術層面進行防控,強調的是技術對抗,而爬蟲之所以可以攻入系統,很多情況下是由于業務體系、邏輯和規則設計的漏洞造成的

如上圖的營銷活動保護效果衰減隧道所示,在制定營銷活動的規則時,如果設置一些提升黑產參與門檻或是增加變現難度的規則,就會阻斷一大批黑產的參與,例如:必須綁定***才能參與、一個賬號只能參加一次、獎勵不能轉贈必須本人使用、優惠券只能購買平臺內的商品等。

注重事中,忽略事前和事后

如營銷活動保護效果衰減隧道所示,大量方案采用的是事中識別和防御,其最大的問題在于被動防守,只能完成后驗式的調整,不能做出先知式的靈活策略調整。

除了事中防護,還需要在事前主動監測輿情,分析業務變化,結合業務的運營節點-如雙十一、春節大促等事件,主動進行預測和規則定制優化;在事后及時利用新數據進行規則更新、AI模型調優和黑名單沉淀等。

關注單點,忽略全鏈條

僅在注冊、登錄、關鍵業務活動等節點進行“單點縱深防護”,一方面過早與爬蟲進行強對抗,容易引發黑產對手的警覺和進化;另一方面,一旦爬蟲突破了某個節點,后續節點不能有效利用前序環節的數據和行為,進行跨環節的時序性操作行為的識別,如登錄后直接點擊“簽到“按鈕即退出,而沒有進行其他瀏覽和操作的行為序列就是典型的爬蟲特征。

單兵作戰,被動防御

貌似上了一堆防護手段,但這些手段只能各自為戰,不能根據業務特征、應用場景、爬蟲行為等進行聯動協同,不能形成有機的防御體系;只能被動等待爬蟲上門,而不能主動發現風險、甚至誘捕爬蟲主動防御。

僅做生物識別,不做意圖識別

如果僅僅識別出爬蟲就進行封殺,很容易把來自搜索引擎、導流平臺等可能帶來業務提升的善意爬蟲誤殺,因此識別出非人類操作僅僅是第一步,隨后還要根據其行為模式判斷意圖,進而做出恰如其分的處置決策。

過度依賴靜態規則,不能及時動態響應變化

基于過往經驗和事件制定的規則,確實可以有效防范黑產在既定認知領域內的常規攻擊,但其對跨行業的多變場景適應性往往較差,黑產也容易在多次攻防中摸清套路,變化攻擊手段。而防守端面對這些情況,通常只能做出比黑產晚一步的延遲的響應,不能動態進化并及時應對變化。

前端靜態防控,易被破解

使用靜態采集代碼完成環境檢測和威脅感知,使用固定的混淆方法保護代碼和數據,其可預測性較高,被逆向后易于被繞過。需要通過動態的方式完成檢測和混淆加密,提升假冒合法客戶端的難度,防止偽造請求、惡意代碼注入、篡改數據內容等攻擊行為。

防御手段不夠柔性

在惡意爬蟲被識別后,通常會采用顯式挑戰的方式進一步識別人機,比如復雜滑動驗證碼,亦或是直接進行IP/UA/用戶的封禁,這樣會帶來對抗升級,逼迫黑產進化,也容易讓黑產摸清平臺的防控策略。

我們可以采取更加靈活、多變和柔性的方式處置爬蟲,疏堵結合,從技術上可以采用定向到假網頁、喂假數據、隱式挑戰、限速而不封禁等手段,從業務體驗上可以降低其獲益的概率和額度,比如紅包始終不中獎或零星中獎,讓黑產在不知不覺中被處理,并且陷在我們設置好的套路里不斷輪回,延緩進入新的對抗階段。

不支持自適應處置手段,用戶體驗差

復雜滑動驗證碼體驗較差,且不區分風險等級進行無差別驗證時,會打斷正常用戶的業務流程,制造有摩擦的業務體驗;如果采用封禁手段進行處置,極易造成誤殺,正常用戶被莫名其妙擋在門外。

對用戶隱私數據使用不規范

反爬平臺往往由業務平臺之外的三方廠商提供,在集成模式上,如果采用了公有云云端部署和處理的模式,在需要用戶敏感數據時,不能做到在用戶側進行數據脫敏甚至計算,還需要在網絡上傳輸至第三方反爬廠家的云端平臺,存在泄漏隱患。

不能應對超大流量,實時性差

現有解決方案常見的集成模式有:反向代理模式、旁路模式,核心的反爬引擎也支持本地部署和云端部署兩類模式。因為反爬不是簡單規則的堆疊,而是需要AI技術的賦能,因此在這些模式中,如果不能很好的分配和調整業務本地端和云端的算力,不能支持高性能的實時計算能力,就不能保證海量高并發流量到來時的處理實時性問題。

五、反爬的頂層設計:利益制衡、生態平衡

商業世界里任何系統運轉的根本驅動都離不開3個詞:利益、利益、利益。在爬蟲與反爬的生態系統里,其運轉同樣也受經濟學和生態學底層邏輯的支配。因此指導我們構建一個可持續進化的強大反爬體系的核心要就兩句話:利益制衡,生態平

1、經濟學視角:降低ROI-削減動力、提升成本

黑產一直有一筆賬算的特別清楚,就是這筆買賣值不值得干,很少有黑產站在戰略的高度去思考怎么把黑產事業搞一輩子。因此只要黑產一次攻擊的ROI(投入產出比)降得足夠低黑產也就沒有動力搞事情了(當然,一個平臺不值得干,黑產就會轉戰其他還有利可圖的平臺)。

從宏觀角度,可以通過改變商業利益格局來改變需求,進而消滅黑產,比如:監管機構明確要求金融機構不能接入沒有個人征信牌照企業的所謂三方征信數據,那么銀行等機構紛紛自查并斷開與三方數據平臺的接口,與此同時,非持牌互金機構被強力監(qing)管(chang),這種情況下,需求(方)沒有了(并不是不需要數據,而是不能從非合規渠道獲取),黑產自然也沒動力繼續從事三方征信數據買賣了。

在微觀角度,一個業務平臺上如何降低黑產的ROI呢?如前所述,可以從業務和技術兩方面入手:一是優化業務規則,比如提升參與門檻(綁***用戶才能參與、交付定金參與等)、封堵平臺外部變現渠道、消費在平臺內閉環、活動獎勵虛擬化、限制頻次金額等;二是使用多種技術手段協同防御爬蟲,提升平臺規則、策略和模型的“不可預測性”,比如JS動態混淆、API授權訪問、AI建模行為分析、智能限速等,讓黑產的破解難度和成本大大提高。

2、生態學視角:平衡ROT-保證目標、抑制進化

安全的極致是什么?答案是“平衡”,即風險與信任的平衡(ROT-風險信任比)。如果一味追求業務規則的極度完美和安全,在攔截住黑產的同時,也會將好用戶/好爬蟲擋在門外,比如之前提到的提升營銷活動門檻,如果門檻定的過高、規則設計過度,則會降低用戶參與的積極性,就背離了營銷活動的初衷—拉新、留存、促活、轉化;再比如搜索引擎等爬蟲,留下它們是會為平臺帶來好流量的。因此,無論如何設計整個體系,一直要在心底記住的就是:安全是為業務服務的,業務目標的實現才是根本

過度追求安全帶來的另一個問題就是逼迫黑產進化。《羅輯思維》第679期節目中講了一個話題“怎樣殺死害蟲“,其中提到殺死害蟲的最佳手段不是100%種植防治害蟲的轉基因農作物,而是要在其中間隔地種一些傳統農作物,讓害蟲不要全軍覆沒,要留一些殘兵敗將,讓它們把“落后”的基因遺傳下來,以免造成群體進化。

從具體做法上分為兩個方面:一是設計柔性的處置策略,讓惡意爬蟲小小的“得逞”一下,或者讓黑產自認為得逞了,不趕盡殺絕;二是對付一個最終會進化的物種,最好的辦法就是秉持“黑暗森林法則”努力比對方進化的更快,因此保持技術升級、保持對業務的深刻理解是一場沒有終點的比賽。

3、反爬體系構建的核心要點

基于“利益制衡、生態平衡”的“道”,可以總結出如下構建反爬體系的“法”:

務與技術雙引擎防御

通過對跨行業的通用業務模型和規則進行抽象,形成通用業務建模方法論,并針對垂直行業形成領域模型;

在業務目標的指引下有效使用技術手段進行風險識別和動態防御。

用AI對抗AI為整個體系嵌入“智能大腦”,對抗不斷進化的、用AI技術武裝的黑產和爬蟲。

跨行業賦能業務:站在比黑產團隊更廣泛和深入的視角上洞察業務,A行業積累的經驗能快速復制和適配到B行業。同時沉淀海量脫敏數據,讓AI的進化有充足的底層原料,這些數據相比于單一黑產團隊,在規模和豐富度上具有量級性差異

AI模型自進化:通過每一天的攻防實戰,完成漸進式的迭代學習,隨時跟進爬蟲的新動態和變化,同時通過冠軍挑戰者模式進行模型A/B測試和優選,并采用延遲反饋策略觀察線上應用效果,防止突發小概率事件引發模型的”畸變“;

“液態化”:面對新領域,用行業自有數據訓練模型,在通用模型的基礎上融入行業基因;面對新威脅,讓黑產的行為和數據訓練和增強對抗模型,快速形成防御能力,讓整個體系具備快速響應和自適應能力。

構建動態協同的主動防御體系

多維度立體化:從時間維度上看,一方面在防控階段上連接事前/事中/事后的手段,另一方面在業務全鏈條周期上整合聯動多個業務節點的防控;從空間維度上看,從爬蟲甄別、人機識別到行為分析和主動防御/處置,多層次漸進防控,逐步深入;

協同:多手段有機結合,一是前端和服務端技術配合使用,二是跨多渠道協同,在APP、PC Web、H5、小程序端協同識別爬蟲和積累數據,三是同一個平臺上的多業務聯動,業務之間形成聯防聯控和經驗輸出;

主動:不坐以待斃,基于業務預測和未知風險發現能力,對黑產進行誘捕和分流;同時對會呈現在前端的業務數據、關鍵URL和頁面做封裝和轉化,提升黑產破解難度;

動態靈活:一是技術實現上的動態化,包括混淆加密算法、AI模型參數、領域規則、彈性處置手段等進行隨機變化,提升不可預測性;二是將各種防控能力原子化,使得這些能力與業務松耦合,通過策略靈活組合編排,實現與業務強適配的組合解決方案;

柔性自適應:維持生態平衡,降低誤殺,提升用戶體驗,根據風險等級選擇恰當的防御和處置手段。

六、點-線-面-體:戰爭升級,AI對抗下的反爬軍競體系

1、芯盾時代智能網絡機器人防御體系

芯盾時代基于零信任安全理念和架構,突破傳統區分內外網的“邊界防御理論“,搭建智能網絡機器人防御整體解決方案,面對惡意機器人流量的攻擊,在實現無邊界安全的同時,兼顧業務適應性、客戶集成靈活性、實時大并發流量支撐、用戶體驗和可持續進化,達到高階均衡

芯盾時代平臺,從“點-線-面-體”多層次構建了一個多維、動態、協同、柔性自適應和自進化的智能網絡機器人主動防御體系

:各項技術單點突破,基于2000+特征的深度挖掘,構建100+場景化人機識別模型,面向政務、航空、OTA、金融、電商、在線教育等20+垂直行業領域沉淀專家策略,面向百億級流量實現毫秒級的快速處理能力,形成以終端安全、人工智能、大數據分析、流式實時計算為基礎的、業界領先的業務安全技術體系;

:圍繞反爬蟲的全生命周期鏈條,根據企業需求和業務形態,從事前的業務分析、場景建模和策略定制,到事中的風險識別、動態防御和彈性處置,到事后的分析-反饋-進化,綜合協同使用多種技術和業務防控手段,持續優化,形成迭代進化閉環,保證反爬效果和業務目標達成;

:從數據、終端、行為三個層面進行識別與防御。數據層面,通過整合與沉淀海量風險IP/設備名單庫,有效過濾爬蟲慣犯,結合黑產輿情信息,進行業務預判和提前防范;終端層面,通過覆蓋APP/PC Web/H5/小程序的設備指紋錨定黑產設備,使用終端威脅態勢感知技術檢測自動化框架等環境風險,并結合生物探針、邊緣計算支撐的人機識別、生物隱式挑戰、數據蜜罐等技術完成爬蟲識別;行為層面,基于智能識別引擎,通過多維度AI模型識別爬蟲意圖和預判風險趨勢,使用無感知認證、智能CAPTCHA、智能限速等動態防御技術和彈性處置手段,完成爬蟲的柔性處理;

:將整個體系打造成有機進化的類生命體系統。一方面通過不斷采集沉淀的脫敏數據,訓練、優化已有AI模型,并基于深度神經網絡和無監督學習模型挖掘黑產高維特征,不斷生成適應黑產變化的新模型;另一方面通過芯盾黑產研究實驗室的紅藍對抗,站在黑產視角進行模擬對抗訓練,提升對黑產的認知和防范水平。

*本文作者:芯盾時代trusfort,轉載請注明來自FreeBuf.COM

相關推薦
發表評論

已有 1 條評論

取消
Loading...

最近文章

論爬蟲持久戰

2020.01.01

特別推薦

活動預告

填寫個人信息

姓名
電話
郵箱
公司
行業
職位
css.php 微信上那些说赚钱是真的吗