智能多維數據分析助推影像學和醫學發展
生物分子相互作用機制是發現疾病病因和開發新藥的關鍵,但目前人們對其尚待完全了解,因此開發多維數據分析和圖像識別的概念和工具有助於推動醫學科學和其他領域的進一步發展。城大影像科學專家嚴洪教授在影像及生物分子模式識別技術方面作出了重大貢獻,並提出了新的理論及復張量的計算方法,以拓展復張量在影像、生物、醫學及其他領域的應用。
嚴教授目前的研究重點是張量計算,以檢測和分析數據集中有意義的模式。張量是數據的多維數組,在數學中,一個數可以被認為是零階張量,一個向量可以被認為是一階張量,一個矩陣可以被認為是二階張量。人們現在對這些數據表示和結構已有了很好的理解。“然而,對於三階以上高階張量的分析,現有的數學理論和計算方法還遠遠不夠成熟,我們需要張量的新概念和新理論,而這些概念和理論無法簡單地從矩陣理論引申出。”嚴教授(黃俊康教授(數據工程)兼電機工程學系電腦工程學講座教授)解釋道。
高階張量分析的新理論
雖然生物分子和圖像分析是在兩個不同的學科中研究的,但生物分子間的相互作用似乎與計算機技術對圖像的感知原理相似。嚴教授闡述:“計算機通過點、線、區域及其關系的一致位置來識別圖像中的物體。類似地,兩個分子之間產生相互作用是因為它們與互補的表面和電荷相吻合;因此,理解張量至關重要,張量提供了一個嚴謹的數學模型來表示一致的特征及其高階關系。”
嚴教授和其團隊與數學家、生物學家、醫生和計算機工程師展開了密切合作,推出了基於張量模型的聯合聚類方法。傳統的機器學習和模式識別方法根據對像的特征進行分類,而嚴教授及其團隊推出的新方法可以同時對對像和特征進行分類。
“例如,一組基因可能在一組條件下被共同調節,這些基因和條件形成共簇。如果有很多基因和條件,計算時間會成倍增加,但是我們的小組已經用張量法解決了這個問題。我們的新方法能夠同時檢測幾種類型的共簇,這些共簇甚至可以在數據中重疊。” 嚴教授解釋道。
基於張量和超圖模型,研究團隊開發了用於匹配數據集的高效計算機算法,通過高階關系解決了匹配數據項之間所有兼容性的優化問題。
在肺癌細胞突變分析中的應用
此外,嚴教授還將張量計算應用於細胞分裂數據分析和生物分子表面表征。肺癌是全球癌症死亡的主要原因,其中非小細胞肺癌(NSCLC)約占所有肺癌病例的85%。表皮生長因子受體(EGFR)基因突變是引起NSCLC的常見原因,而NSCLC在東亞人群中發病率可達60%。
严教授的团队与香港玛丽医院的医生合作,分析了所有已知的EGFR突变体,并建立了相应的3D结构数据库。他们提出的创新方法将帮助研究人员了解抗药性机制,并帮助医生为癌症患者规划最佳的个性化治疗方案。
除了對醫學進步作出貢獻外,嚴教授還利用了張量模型來解決科學和工程中的其他問題。例如檢測圖像中的物體及跟蹤視頻中的運動目標,這一檢測跟蹤過程無需事先訓練,因此與常用的基於分類器的識別系統相比是一重大改進。
嚴教授和他的團隊將繼續致力於張量和超圖理論,旨在開發穩健的計算機算法和軟硬件並行處理器,並將其更多地應用於圖像、視頻和生物醫學數據分析系統。
“縱觀歷史,許多重大技術突破都依賴於基礎理論。例如,信息論是推動現代數字通信系統發展的關鍵。要解決多維大數據分析問題,就需要理解張量,並基於此發展新的理論和算法。”
此文章收錄於CityU RESEARCH。