小編的世界 優質文選 網路
字體大小:
2020年10月28日 -
:
網易易盾
網易易盾官方帳號
自媒體時代,短視頻、直播成為重要的互聯網內容形態。對於視頻而言,分控難點主要有三方面,分別是內容數據量大、實時風控要求高、有害樣本獲取難,這給視頻內容智能風控帶來了巨大的技術挑戰。
一、技術突破推動內容安全升級
深耕安全領域22年,網易在沉澱了非常多的經驗,無論是對於安全規則的理解,還是信息安全相關的技術研發。網易易盾致力於用“硬核”技術來對網絡空間進行監控,判斷,甚至自主判斷,輔助我們進行實時、准確、有效地治理。總的來說,網易的內容風控技術發展路線可以分為三個階段:
階段一:用關鍵詞和黑白名單編制的過濾器
用CPU計算,以C語言為主,內容安全檢測系統采取事後發現的思路,提取簡單特征進行單維度的攔截,屬於被動防禦。
受限於硬件計算能力和軟件架構,此階段的技術在海量數據下無法進行實時大規模的運算,缺少穩定的軟件、框架和工具,難以部署工業級應用。
階段二:進行特征匹配與相似聚合的規則系統
用CPU計算,以Java語言為主,內容安全檢測系統能夠事中判斷,離線更新,提取多元特征進行加權比較計算。
此階段的系統軟件上實現了分布式架構,但受硬件資源的限制,只能對海量數據進行簡單的實時運算。其進步點在於有穩定和易於維護的軟件架構,適合開發多種功能適配的工具和系統,比如聚類、動態規則策略等。
階段三:融合人工智能技術和大數據分析的綜合決策
在硬件方面,網易易盾構建“CPU+GPU+雲計算”的彈性異構模式。這種架構帶來了高效的計算能力,海量數據可以進行複雜的實時運算,解決了在高並發環境下的性能問題。
在軟件方面,網易易盾內容安全檢測系統融合了“Java+AI+容器”多種元素。AI技術發展迅速,新算法和框架層出不窮,而容器技術很好的解決了GPU集群的管理問題,兼容了環境和驅動的差異。
階段的技術已經能夠實現實時計算,提取多元特征進行深度學習,屬於主動防禦。
總體而言,第三階段的系統在各個方面都接近頂峰:系統穩定性達到99.99%,模型准確率達到99.9%。針對不同類型文件,平均響應時間下降明顯。其中,文本僅需100ms,圖片僅需500ms,音頻實時率0.2,直播延遲毫秒級。得益於技術的進步,互聯網內容安全審核迎來黃金時代,日均處理十億+數據量成為常態。
二、真實問題推動方案靈活運用
在現實場景中,較低的垃圾率卻能帶來放大誤判率的感受。假設1萬張圖像中有1張是違禁圖片,我們的系統准確率為99.9%,即1千張圖像會判錯一張。即便問題是千裏出一,但也會給客戶帶來不好的使用感受。
此外,在強對抗場景下,黑灰產技術進步帶來的識別難度上升,例如文字翻轉、圖片切割、文字扭曲、特征掩蓋、特殊比例圖片、字符干擾等疑難雜症。
基於不斷迭代的客戶需求,客戶在實踐中直面挑戰,實現技術在真實應用場景中的優化,構建縱深防禦體系。
首先,以有害內容的分類為例,標簽系統實現了更加精細的分類,並支持動態更新。其次,對所有用戶數據進行采樣和分析,在有安全需求的地方進行檢測和攔截。攔截策略可以定制,任何地方可以調用檢查。
隨著結構和模型的升級換代,各項結果更加令人滿意:在保證召回率的同時,節約90%的計算量;在保證精確度和召回率的前提下,模型迭代周期從數周縮短到2~3天;有害內容的攔截召回率比僅采用內容特征的檢測系統提高8~10個百分點。
不少To B服務企業即便有技術加持,但部署效果卻總差強人意。這是為什麼呢?在實際操作中,仍舊需要注意使用方式,避免事倍功半。面對內容安全保障中的實際痛點,網易易盾采取了不同的應對策略:
○ 面對反饋環節缺失,導致優化速度緩慢,系統接入自動化反饋渠道。
○ 面對數據缺失或者采樣數據不對,降低模型准確性,技術對用戶行為地圖進行分析,在關鍵節點進行采樣和檢查。
○ 面對垃圾蟲不區分的友好交互,幫助垃圾蟲突破防禦,系統提前完善用戶協議和說明,包括社區制度、活動規則、即時判斷、延遲作用、策略隱藏等。
以“硬核”技術突破為核心競爭力,以“靈活”商業賦能機制為杠杆,在真實的世界中,網易易盾實現了人工智能在內容安全行業中的切實應用和落地。
三、客戶需求推動商業創新
軟件即服務(Software as a Service)是21世紀興起的一種創新軟件應用模式,處於雲計算產業的應用層。隨著雲計算市場大步向前,SaaS應用也煥發新機。
通過易盾的互聯網內容安全SaaS解決方案,客戶不再需要一次性采購昂貴的軟件,只需要花費較少的初始投入便可以接入軟件服務,一站式解決有害內容泛濫問題。此外,客戶可以總是使用到最新版本的更新和更好的服務,而不用擔心後期的維護和更新。
網易易盾的互聯網內容安全解決方案主要分四大類,包括融媒體解決方案、主動檢測解決方案、文檔解決方案、音視頻解決方案。
融媒體解決方案適用於圖文、音視頻、文檔等合並混合統一檢測場景。當前,SaaS服務已經從重資產轉向輕資產,只需獨立接口就能實現無憂接入,圖片音視頻場景全覆蓋。
主動檢測解決方案,顧名思義,能夠主動檢測網站內容,全面涵蓋網頁內文本、圖片、附件文檔,並定期輸出內容風險檢測報告,規避內容發布風險,及時扼制因惡意篡改而造成內容違規風險。
文檔解決方案適用於所有圖文混合過檢場景,獨立接口調用,快速解析文檔/圖文內容,省去自行篩分過檢煩惱。
音視頻解決方案致力於智能解析音視頻全媒體,支持視頻標題、視頻封面、視頻內容、音頻內容、彈幕、評論、熱度監測等一站式專業過濾。
網易AI技術部門在國際競賽中與國內外高校和企業同台競技屢獲佳績,包括中央網信辦、工信部、公安部、科技部指導的中國多媒體信息識別技術競賽中獲A級證書(最高級);中國計算機學會舉辦的ASRU 2019中,獲端到端語音識別第一名;清華大學主辦的東方語言識別大賽OLR 2018中,在三個比賽任務中獲得開集語言識別和混淆語言識別兩項第一名;創新工場等單位主辦的2018年全球AI挑戰賽中,獲短視頻實時分類競賽冠軍。
在數字經濟時代,幾乎所有行業都不能對“內容安全”置之不理。隨著互聯網內容的治理辦法相繼出台,包括金融、電商、零售、在線教育、在線文娛在內的眾多“互聯網+”行業所生產的數字內容都在監管範圍之內。由此,對於易盾而言,不少行業都是重點服務對象,貼近行業深入把握有害內容的特點,在不同行業建立起示範效應是重中之重。
此外,新冠疫情的爆發激發了客戶對成本和管理效率的重視,撬動了他們對數字化的期待,為之迎來了重要發展機遇。當下,上至政府,下至企業,都計劃全方位部署數字戰略,以保證信息和服務隨時隨地能夠通過任何平台或設備被獲取。
總的來說,無論是互聯網內容的監管升級,還是政府、企業的數字戰略升級,都讓內容安全SaaS服務迎來春天。未來,網易易盾將“行業化、產品化、國際化”發展方針,持續打磨產品,豐富功能,向客戶提供優質服務。在守護客戶內容安全“生命線”的同時,助力企業提質、降本、增效,共塑“清朗”的互聯網環境。
本文內容根據網易易盾CTO朱浩齊在「2020中國軟件研發管理行業技術峰會」上的演講整理而成。