雙面大數據:價值,還是隱私?
2016到2020年,我國數字經濟總體規(guī)模不斷擴大,從2016年的22.4萬億元躍升至2020年的41.4萬億元?!皵底只崩顺北简v而來,作為其基石與核心的數據逐漸成為一種重要生產要素,“數據是寶貴的資產”、“數據是未來的新石油”這樣的說法隨著數字化成為趨勢,在這幾年中被反復提及。
包括網頁搜索瀏覽記錄、購物記錄、地理位置信息等在內的互聯(lián)網生活痕跡,以及各式各樣傳感器完成的數據采集,飛速增長的數據提升了信息的精確性,為帶來更精準的洞察、更高效的消費體驗與更大的商業(yè)利益提供了可能性。
但虛擬數據世界的擴張也同時為現實生活中的個人隱私帶來風險。個人信息泄露可能引發(fā)的騷擾電話、垃圾短信以及財產損失,使得近年來消費者對個人信息保護的意識明顯提升。就監(jiān)管層面,從《網絡安全法》《個人信息安全規(guī)范》,再到App專項治理行動、《民法典》,政府對于數據隱私的監(jiān)管日漸趨嚴。對于企業(yè)而言,同樣面臨著數據合規(guī)要求下數據來源合法性、數據安全、隱私保護等系列風險和隱患。
如何在保障個人數據隱私的前提下推進數據協(xié)作,破解“數據孤島”、被頭部互聯(lián)網玩家控制的“圍墻花園”的問題,創(chuàng)略科技創(chuàng)始人及CEO胡世杰認為,聯(lián)邦學習這項新興技術將有助于更好地發(fā)揮數據的潛力。
創(chuàng)略科技創(chuàng)始人及CEO胡世杰
AI聯(lián)邦學習,魚與熊掌何以兼得
對于聯(lián)邦學習的理解,胡世杰以一句話將其簡要概括為,兼顧數據合作與隱私保護的去中心化協(xié)作機器學習技術。
將聯(lián)邦學習與傳統(tǒng)AI作對比可以幫助我們更好地理解這項新技術。傳統(tǒng)的中心化AI往往是把所有的數據匯聚到一個云或者數據中心,基于處理后的數據進行大量的計算,產出預測,從而運用到具體的應用場景中。聯(lián)邦學習從某種意義上而言正好相反,AI本身在參與方自己的設備、數據中心,或邊緣上去產出計算結果,利用本地數據訓練模型,將需要更新的參數同步回到一個中心節(jié)點,在平均其模型結果后,再將新的訓練模型分發(fā)到各個不同的參與者。在聯(lián)邦學習的機制下,參與者不需要犧牲底層數據隱私,就可以同時實現比較大規(guī)模的AI、機器學習的應用場景。
“運用聯(lián)邦學習技術的參與者可以是企業(yè),也可以是個人,個人和企業(yè)意味著不同的參與者數量。比如說醫(yī)院需要建立一個聯(lián)盟,數量上可能是20家,或者全國范圍內的總數,它們作為參與者加入后才能做一個聯(lián)盟化的機器學習,但不必犧牲自己的隱私數據。如果是個人作為參與者的情況,一部分的AI可以實現在自己的手機上去操作完成,再將學習后需要更新的參數在整個網絡上同步,同樣能達到保護個人隱私信息的目的?!焙澜茉谠L談中介紹道。
區(qū)塊鏈+聯(lián)邦學習
在聯(lián)邦學習的場景中,每個參與者基于去中心化的分布系統(tǒng),通過共享一部分數據來進行有效的機器學習,而這仍然需要以數據安全得到保障、參與方之間互相信任、機制透明為前提。
談及區(qū)塊鏈機制如何與聯(lián)邦學習融合產生價值,胡世杰表示,中心化AI一般由某一方主導完成,例如投放微信廣告,企業(yè)的投放數據、消費者的數據,都是匯總到騰訊方,然后騰訊基于其數據體量與模型去實現個性化推送廣告、信息流等。但在聯(lián)邦學習的場景下,可能沒有一個中心方去管理這個過程,它可能就是各個參與方,幾家企業(yè),或三方之間的事情。在這種參與方自行管理的情況下,將區(qū)塊鏈技術融合在聯(lián)邦學習的場景內,可以加強聯(lián)邦學習的透明度,實現多方信任與數據認證,真正做到聯(lián)邦學習的去中心化管理。
“比如一個金融場景下的聯(lián)邦學習聯(lián)盟,可能有跨銀行的10個參與者或者15個參與者,其目的都是為了加強各方關于客戶的洞察。如果有一方出于損害競爭對手的目的,特意上傳一些偽造、有疑問,又或是不干凈的數據到這個共享模式里,就會對整體的洞察造成破壞,影響原本正確的模型判斷。在這種情況下,如果用區(qū)塊鏈技術來做一個類似聯(lián)盟是否同意每一方數據質量的投票機制,就能更好地減少作假,提升機器學習準確度。”
以深度洞察驅動全局營銷
為了打破企業(yè)間的數據孤島,提升企業(yè)AI效能,胡世杰介紹,創(chuàng)略科技在2019年就開始研究去中心化AI技術,一方面是聯(lián)邦學習,一方面是隱私計算,并挖掘其在全局營銷大場景下的價值。
很多行業(yè)的B to C企業(yè),可以基于自身第一方的私域數據體量,通過數據分析與沉淀來獲得有關客戶的標簽洞察。但在有限的私域數據之外的洞察,要么是缺乏渠道,要么是需要購買第三方數據,再經過ID匹配后獲取更多數據洞察。通過這樣的方式獲得的市場用戶洞察存在顯而易見的缺陷,一方面是私域數據的體量不足以支撐得出深度分析結果,淺嘗輒止;另一方面是第三方的數據來源及準確性難以保證。
基于聯(lián)邦學習不需要分享數據本身,也能完成機器學習目標的優(yōu)勢,創(chuàng)略科技將聯(lián)邦學習應用在營銷場景,幫助企業(yè)實現私域數據以外的全面洞察。
“如餐飲、旅游、金融等B to C領域,如果企業(yè)的體量足夠大,彼此間的客戶群體勢必會出現部分重疊,而基于重疊的群體,企業(yè)可以不犧牲自身數據,而選擇加入一個企業(yè)聯(lián)盟,用聯(lián)邦學習獲取其他企業(yè)的客戶的洞察。舉例來說,一家航空公司的客戶在咖啡館消費的部分行為是能獲取的,假如通過聯(lián)邦學習獲得對消費者更全面的洞察,參與的這些企業(yè)將都能互相增值。如果想要進一步合作,則可以通過區(qū)塊鏈的學習,針對重疊用戶群體獲取一定的交叉銷售機會。”
對于企業(yè)而言,聯(lián)邦學習可以幫助獲得對消費者更全面的洞察,更大程度的發(fā)揮數據價值,助力企業(yè)經營;同時其具備的隱私安全性將進一步保護消費者個人隱私信息,也使得對數據的運用更合規(guī),符合政府監(jiān)管的要求。
從“數據孤島”走向聯(lián)通共榮
為什么要發(fā)展聯(lián)邦學習這項技術?在胡世杰看來,除了能在全局營銷上發(fā)揮顯著作用,聯(lián)邦學習對于當前商業(yè)格局的發(fā)展同樣將產生深遠影響。
橫向來看,當前的互聯(lián)網模式呈現出中心化的發(fā)展體系,當一個中心化的體系達到固定規(guī)模后,從數據體量角度而言,就如同馬太效應,占據主導地位的主體優(yōu)勢會越來越大,導致第三方參與其中的難度增加。聯(lián)邦學習技術的發(fā)展對現有局面具備一定的顛覆性,當技術發(fā)展得更為成熟,落地到更多具體的應用場景,將促成多方自主協(xié)作而不必對單一主體產生依賴。
縱向而言,聯(lián)邦學習減少了數據暴露風險的規(guī)模與程度,這適應于智能設備與物聯(lián)網普及的大趨勢,當設備的計算更多集中在本身和邊緣計算,數據沒必要再匯總到一個主機房,對于降低成本、提升設備性能將產生積極影響。
避免隱私成為數據,讓數據發(fā)揮更大的價值,聯(lián)邦學習作為一項重要的新技術方向,在打破數據孤島、走向聯(lián)通共榮上有著巨大的潛力,隨著智能設備與物聯(lián)網的普及,聯(lián)邦學習將獲得發(fā)揮更大價值的發(fā)展空間。