清华主页 EN
导航菜单
求真大讲堂预告 | 第二十四讲:以非编码RNA为核心的人工智能和多组学技术在复杂疾病上的研究和应用

主讲人介绍

鲁志,清华大学 生命科学学院 研究员,博士生导师,教育部“青年长江学者”,国家“优秀青年”基金和“霍英东”青年基金获得者,“生物信息学”教育部重点实验室副主任。鲁志博士的实验室主要从事跟“非编码RNA”有关的生物信息学研究,包括1) 精准医疗,2)AI驱动的药物设计 两个主要方向。发表国际重要期刊文章60余篇(Science, Nature,Cell,PNAS, eLife, Cell Res., Nuc. Acid Res., Genome Biology等), 总引用近2万次,其中以通讯作者身份发表的30余篇(高被引3篇)。


讲座摘要

我们实验室致力于发展生物信息学技术,并探索其在癌症等复杂疾病的精准诊疗上的具体实践。我们利用机器学习等人工智能技术,结合非编码RNA为核心的多组学数据,来研究遗传信息是如何被编码在结构化的DNA和RNA分子之中,以及它们是如何在一个生命体系中相互作用、彼此调控。“上工治未病”,我们的一个重要使命,是帮助人们更早期的发现癌症。我们相信,这种使命感以及为此付出的实践和努力,将帮助我们理解和治疗人类疾病,并最终认识和提高我们自己。

实验室围绕着非编码RNA主要有两个研究方向: 1.精准医疗;2.AI驱动的药物设计。例如,近年来,人们逐渐认识到多组学大数据在癌症等复杂性疾病的精准诊疗中的重要性,但具体如何实现多维数据的有效整合以及优化,还有待探索和研究。很多组学数据,尤其是单细胞和体液中的组学数据,具有稀疏化、异质性明显等特点,需要针对这些特点开发深度学习等机器学习模型。对于这些多维度、多模态的高通量数据,我们需要进行4个步骤来进行机器学习分析,包括 1) Data Cleaning, 2) Feature extraction and engineering, 3) Model Fitting, 4) Classifier。我们针对这4个步骤探索和开发生物信息学方法、软件、数据库等工具,并通过这些方法和工具分析和整合RNA (尤其是noncoding RNA)、DNA及其甲基化、外泌体蛋白等多组学数据,从一个系统性的多分子层面揭示复杂疾病(如癌症, 免疫相关疾病)的发生发展规律。