• 深度
  • 行業
  • 行業
  • 互動

想弄懂圖網絡為何如此強大,我們跟極驗聊了聊|白洞戰報

腦極體 2019-11-07

原標題:想弄懂圖網絡為何如此強大,我們跟極驗聊了聊|白洞戰報

此前我們多期《白洞計劃》中,都在探討以深度學習為代表的AI與產業接軌的細枝末節。

其中,數據難以收集、處理任務難、模型訓練成本高等等,已經是老生常談的槽點了。而在眾多解決方法中,近期來被提到最多的詞就是——“圖網絡”技術。

簡單來說,就是基于圖(Graph)數據搭建起來的神經網絡。它的特點是,在一開始就能讀懂數據,尤其是非結構化數據之間的種種隱秘聯系。

比如深度學習看到一張照片,只知道“你和圖中另一個女人長得像”,但圖網絡知道“你們長得像因為她是你媽并且此時內心還有點想揍你”。論邏輯推理能力,后者是不是厲害多了?

但圖網絡技術究竟該怎么訓練?有哪些具體的應用場景?又有著怎樣與眾不同的坑?真的是讓AI萌新們舊愁未解又添新愁。本期《白洞計劃》專門尋訪了以“圖數據平臺”實踐交互安全的極驗,以及其服務的技術應用方,來共同為大家揭開圖網絡在安全領域的神機妙用。

穿越生死門:縈繞在直播平臺頭頂的安全之困

按照節目傳統,我們本期邀請到的技術應用方,是一家直播平臺。在交流過程中,對方的安全負責人孫總可真沒少吐苦水,我們這才知道,原來花團錦簇、熱鬧非凡的直播平臺背后,真實的生存環境和技術迭代的需求,簡直是“南上加南”。

大致總結一下,目前直播平臺面臨的安全難題主要有兩點:

一個是嚴峻的黑灰產“薅羊毛”現狀。簡單來說就是犯罪團伙通過批量賬號觀看直播,利用簽到領福利、充當水軍、領活動紅包等形式攫取不當收益,消耗平臺原本應該發放給主播和真人用戶的獎勵。但平臺在排查問題賬號時,如果不能及時快速準確地識別出異常行為,產生漏封、誤封,都會造成一定的經營損失,或是影響平臺的用戶體驗,比如說錯誤地給一個真人用戶降低了視頻碼率。

另一個則是安全防御的投入產出平衡。盡管直播平臺往往都會擁有自己的安全技術團隊,但從與孫總的交流中我們得知,許多黑灰產或黑客們也在不斷更新技術,利用算法攻擊服務器、模仿真實軌跡等都已經是常見操作了。對于這種“長期抗戰”,企業自身在產業場景行為數據的積累、算法模型的快速迭代等方面往往“心有余而力不足”,如果過度追求安全領域的天頂技術和持續對抗,又會過度消耗企業寶貴的現金資源。

可以說,如何應用數據、應用AI,進而幫助平臺降低運營成本,維護健康的直播環境,提升網安保障的性價比,正在成為直播平臺,也是千行萬業長久生存下去的前提條件與新賽點。

圖數據基座上的安全堡壘:新興網絡防護需要怎樣的AI?

上述問題為什么需要特別用圖網絡技術來解決?從極驗的安全解決方案中,我們或許可以找到答案。

簡單來說,圖數據+深度學習所訓練出的圖網絡,在新型網絡安全業務中扮演了三個重要的角色:

第一重角色是“守衛者”。

最直觀地表現在對平臺運營安全的保障上。

在互聯網領域存在許多欺詐行為或隱藏攻擊行為,比如惡意爬蟲竊取平臺用戶數據,亦或是金融領域一個村子的人組團詐騙借貸,或是電商領域惡意利用平臺漏洞瘋狂“薅羊毛”,如何識別、偵查這些異常行為,就成了一道難題。

而圖網絡的優勢在于,能夠針對一些“非結構化”的數據,發現它們之間的關聯,進而更容易洞察用戶的行為軌跡及意圖。

比如說,許多黑灰產在攻擊網站或App時都會采用一些自動化的腳本,更先進的還會模擬一些真實人類的行為軌跡,借助圖數據平臺對正常用戶的行為數據進行分析建模,最終生成的神經網絡能夠更好地找出這些“工具”留下的把柄,做到提前預警,從而為平臺的數據資產安全保駕護航。

第二重角色是“精算師”。

圖數據加入神經網絡的另一個好處,就是能夠直觀地提升平臺的智能處理效率,進而有效地降低運營成本。

要理解這一點,來自極驗交互安全實驗室的閆先生為我們舉了一個現實中的例子。

在服務直播平臺的過程中,極驗發現他們對于音視頻流媒體的涉黃涉暴內容識別有很高的需求,稍有不慎就會面臨審查、App下架整改等風險。但利用傳統的深度學習圖像分割技術,需要每一幀每一幀地進行處理、識別,背后對應的則是極高的算力成本。

如何對多維度的內容實現毫米級的精準識別,能夠認知圖像中復雜關聯的圖數據平臺,采用分布式和并行訓練的方式,對十億級別的大圖數據進行高效學習,能更好地適應此類企業的業務需求。

第三個角色是“激活酶”。

最直接的理解就是,作為關鍵媒介來激活企業深埋于數據庫中的數據資產。

極驗的閆先生告訴我們,目前還有大概60~70%的數據沒有真正被大家所利用起來,原因之一就是里面有非常多的結構化數據,是傳統深度學習神經網絡很難處理的。

未來一旦激活了這些隱形資產,對產業價值和業務增長都將會是潛力的極大釋放。

舉個最直觀的例子,社交網絡就是最為典型的非結構化數據,A關注了B,B點贊了C的微博,D又轉發了某個文章,人與人、人與內容、話題與文章之間都存在著千絲萬縷的關系,很難用數據庫的形式來儲存。

而通過圖數據建模平臺的搭建,將這些關系型數據收集起來,進行上層的算法建模,就可以實現一些前所未有地分析。進而幫助平臺改善用戶體驗,或者真正實現千人千面的商品推送等等,這些都會進一步激活產業對AI新的價值想象。

當然通過交流,我們也了解到了極驗作為圖網絡技術的先行者與實踐者,在現實中遇到的一些真實的阻礙。

其中最頭疼的一個,就是客戶層面的技術疑慮。

閆先生直言,剛開始接觸對方直播平臺的時候,他們對極驗的產品是有一定疑慮的。一方面出于對圖網絡技術本身的不理解,另一方面則來自于技術與業務能否順利耦合的困惑。

在此基礎上,極驗通過對直播行業的充分調研,比如分析平臺的支出結構(一部分在寬帶和CDN上,一部分在主播工資上),進而打造了交互模型打擊黑灰產+內容模型提升計算效率,這樣一個雙效節省運營和工資成本的綜合解決方案,才最終拿下。

極驗也告訴我們,在今年7月份,他們剛剛發布了一款叫疊圖的產品,基于GCN(圖神經網絡)來解決不限于安全領域的各行各業的業務難題。

由此看來,今天的產業智能化浪潮,需要的不僅僅是企業自身的認知迭代,AI技術也在一步步挑戰更高的穹頂,突破自身的瓶頸。

與此同時,整個互聯網和物理世界的數據復雜度也會越來越交融,也越來越復雜,無論是安全問題,還是其他諸如業務增長、體驗優化,更優質的AI與技術服務,也孕育在這些變局之中。

(免責聲明:此文內容為第三方自媒體作者發布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com)

標簽數據
  • 腦極體
    郵箱:caoceng@fromgeek.com
    寫讓你腦洞大開且能看懂的人工智能、流媒體、海外科技
    分享本文到