城大研發新系統保障個人私隱 避免因在線行為導致元數據外洩

 

私隱保障是收集數據(data collection)時要面對的一大難題,即使個人資料及數據本身經過加密,用者包括在線行為等在內的「元數據」(metadata)亦可能導致個人身分外洩。香港城市大學(城大)研究團隊最近研發了一套名為《Vizard》的「可隱藏元數據分析系統」(metadata-hiding analytic system),容許個人資料擁有人自訂有關數據的使用權限,相信在不同範疇、例如精準醫學研究等領域都具有應用潛力。

城大電腦科學系王聰教授帶領是次研究,他說:「想像你寄了一封信給你的朋友Alice,雖然信封封口密封,理應無人知悉信件內容,但從封面抬頭的資訊,他人會得知『你寄了一封信給Alice』的這個事實。這就是我們所指的『周邊信息』(side-information),即等同在虛擬世界內的元數據。」

簡單而言,單是電腦文件的作者、建立日期、修改時間或檔案大小,都屬於基本的元數據示例。但許多其他數據,由個人造訪網購平台的次數、以至參與癌病研究的紀錄等,都可視之為元數據。王教授解釋說:「第三方未必得知你所購買的產品、或研究的內容,但足夠的元數據幾近等同隱去的資訊。」他續說:「舉例來說,若有一個人既參與癌病研究,又經常造訪健康產品的網購平台,就容易令人聯想——這名資料擁有人可能罹患癌症或其他疾病。」

充足的元數據幾乎等同可追蹤個人信息

現時,私隱保障主要是依賴數據收集平台的實務操作,資料擁有人在數據可能外洩的風險下,只能相信平台所訂定之守則。研究團隊嘗試尋找解決方案,透過新研發的系統Vizard改變固有「盲信」科技企業或數據收集平台的機制,同時減低元數據外洩的憂慮。

為了讓Vizard成為可全面保護元數據的數據收集及分析平台,王教授的研究團隊利用一款名為「分布式點函數」(Distributed Point Function, DPF)的加密工具。DPF 被視為一組可促進安全/加密計算的通用構建組件,用於在電腦計算過程中匿名檢索數據信息。王教授的研究團隊以DPF作為基礎,開發了具備串流特定預處理(stream-specific pre-processing)、加密和吞吐量增強技術的Vizard 系統。

privacy protection,cityu
使用心率傳感器收集數據的處理流程示例(圖左),以及在訂定數據取用條件下的安全數據轉換(即數據取用要求,圖右)。Vizard在系統內保留了部分公共元數據(包括今次例子中的年齡組別和國家),以促進不同數據流程的處理分組及過濾。
圖片來源:© Cai, C. et al. https://dl.acm.org/doi/10.1145/3548606.3559349

同時,Vizard是一個以資料擁有者為中心的控制方案。每個資料擁有人可透過輸入簡單操作鍵,包括「AND」、「OR」及「NOT」,自訂取用個人數據的要求及條件。舉例有一名資料擁有人只授權來自香港的醫院取用其個人數據,相關操作鍵即為 「1) type= hospitals AND 2) region= HK」(意譯:類別等於醫院、地區等於香港)。

另外,團隊亦展示了新研發系統的運作效率。假設在Vizard內存有一萬人的個人數據密文,當中每名資料擁有人都自訂一項數據取用條件,而系統亦只需4.6秒即可處理外來的數據取用要求。 

隱藏元數據有助促進以數據驅動的研究

今次的研發項目,建基於團隊先前所研發的實用數據分析系統。該系統可在無解密狀態下處理加密數據,有別於現有的數據處理流程,令黑客無從入手盜取數據。

privacy protection,cityu
Vizard主要由資料擁有者、數據取用者、安全數據處理流程及「計算結果發布控制委員會」(Result Release Control Committee)四個部分組成。圖片來源:© Cai, C. et al. https://dl.acm.org/doi/10.1145/3548606.3559349

為進一步保障個人數據,研究團隊建議在新系統Vizard加入一個「計算結果發放控制委員會」(Result Release Control Committee, RCC),並由不同持分者包括資料擁有人、政府機構或組織所組成。 此後,委員會跟資料擁有人可一同制定如何保護未經發放的計算结果,例如可要求對計算結果的正確性進行驗證、提供私隱保障,甚至是付費取用等不同條件,這些計算結果發放規定將可透過去中心化的RCC委員會的認證而得到保障。

王教授說:「這套可隱藏元數據的共享加密數據系統,可用於醫療保健、商業機構或政府部門等需要大數據分析來制定更精準決定的領域或行業。舉例來說,不同地區的醫院可安全地共享患者的醫學數據,有助於疾病診斷和進行醫學研究。」

這項研究成果已經在《ACM計算機和通信安全會議2022》(ACM Conference on Computer and Communications Security (CCS) 2022)發表,題為〈Vizard: A Metadata-hiding Data Analytic System with End-to-End Policy Controls〉。而ACM計算機和通信安全會議是一個雲集國際信息安全研究人員的旗艦年度大會,會上發布的研究均獲同行評審,接受發布率約22.5%。

privacy protection,cityu, wang cong
城大電腦科學系王聰教授。圖片來源:香港城市大學

今次研究的第一作者為蔡承均博士,他曾為王教授研究團隊的博士後,現時為香港城市大學(東莞)(籌)的研究員。王教授是通訊作者,其他合作研究員包括城大電腦科學系講座教授兼系主任賈小華教授、博士生臧懌晨先生,以及武漢大學國家網絡安全學院的王騫教授

研究獲得香港研究資助局、InnoHK創新香港研發平台及國家自然科學基金委員會撥款資助。

 

 

 

 

 

聯絡資料

Back to top