智能多维数据分析助推影像学和医学发展
生物分子相互作用机制是发现疾病病因和开发新药的关键,但目前人们对其尚待完全了解,因此开发多维数据分析和图像识别的概念和工具有助于推动医学科学和其他领域的进一步发展。城大影像科学专家严洪教授在影像及生物分子模式识别技术方面作出了重大贡献,并提出了新的理论及复张量的计算方法,以拓展复张量在影像、生物、医学及其他领域的应用。
严教授目前的研究重点是张量计算,以检测和分析数据集中有意义的模式。张量是数据的多维数组,在数学中,一个数可以被认为是零阶张量,一个向量可以被认为是一阶张量,一个矩阵可以被认为是二阶张量。人们现在对这些数据表示和结构已有了很好的理解。“然而,对于三阶以上高阶张量的分析,现有的数学理论和计算方法还远远不够成熟,我们需要张量的新概念和新理论,而这些概念和理论无法简单地从矩阵理论引申出。”严教授(黄俊康教授(数据工程)兼电机工程学系电脑工程学讲座教授)解释道。
高阶张量分析的新理论
虽然生物分子和图像分析是在两个不同的学科中研究的,但生物分子间的相互作用似乎与计算机技术对图像的感知原理相似。严教授阐述:“计算机通过点、线、区域及其关系的一致位置来识别图像中的物体。类似地,两个分子之间产生相互作用是因为它们与互补的表面和电荷相吻合;因此,理解张量至关重要,张量提供了一个严谨的数学模型来表示一致的特征及其高阶关系。”
严教授和其团队与数学家、生物学家、医生和计算机工程师展开了密切合作,推出了基于张量模型的联合聚类方法。传统的机器学习和模式识别方法根据对象的特征进行分类,而严教授及其团队推出的新方法可以同时对对象和特征进行分类。
“例如,一组基因可能在一组条件下被共同调节,这些基因和条件形成共簇。如果有很多基因和条件,计算时间会成倍增加,但是我们的小组已经用张量法解决了这个问题。我们的新方法能够同时检测几种类型的共簇,这些共簇甚至可以在数据中重叠。” 严教授解释道。
基于张量和超图模型,研究团队开发了用于匹配数据集的高效计算机算法,通过高阶关系解决了匹配数据项之间所有兼容性的优化问题。
在肺癌细胞突变分析中的应用
此外,严教授还将张量计算应用于细胞分裂数据分析和生物分子表面表征。肺癌是全球癌症死亡的主要原因,其中非小细胞肺癌(NSCLC)约占所有肺癌病例的85%。表皮生长因子受体(EGFR)基因突变是引起NSCLC的常见原因,而NSCLC在东亚人群中发病率可达60%。
严教授的团队与香港玛丽医院的医生合作,分析了所有已知的EGFR突变体,并建立了相应的3D结构数据库。他们提出的创新方法将帮助研究人员了解抗药性机制,并帮助医生为癌症患者规划最佳的个性化治疗方案。
除了对医学进步作出贡献外,严教授还利用了张量模型来解决科学和工程中的其他问题。例如检测图像中的物体及跟踪视频中的运动目标,这一检测跟踪过程无需事先训练,因此与常用的基于分类器的识别系统相比是一重大改进。
严教授和他的团队将继续致力于张量和超图理论,旨在开发稳健的计算机算法和软硬件并行处理器,并将其更多地应用于图像、视频和生物医学数据分析系统。
“纵观历史,许多重大技术突破都依赖于基础理论。例如,信息论是推动现代数字通信系统发展的关键。要解决多维大数据分析问题,就需要理解张量,并基于此发展新的理论和算法。”
此文章收录于CityU RESEARCH。