|
近日,最新一期著名学术期刊《Nature》杂志发表了德国海德堡大学医院、德国癌症研究中心等单位上百名科学家联合完成的题为“DNA methylation-based classification of central nervous system tumours”的论文,研究发现利用一种人工智能-机器语言进行基于DNA甲基化数据的分析可以改善脑肿瘤的诊断。
现如今,各行各业要是不绑上“人工智能”几个大字,就似乎会显得自己跟不上时代了,显得落后世界前沿领域。这就如同不久前各行各业都绑上“互联网”三个字一样,只不过对于互联网而言是“互联网+各行各业”,而最近对于人工智能而言,是“各行各业+人工智能”。然而,人工智能是什么,人工智能能干什么,人工智能到底对本行业能够产生多大的影响?绝大多数人恐怕并不清楚,即便是连深耕这个领域的一些专家朋友似乎也迷惑不清。只不过大多数行业都来绑一绑这个火爆的名词,显得自己高级,与众不同,而现目前实质上能够对绝大多数行业产生的影响恐怕十分有限。不过,人工智能在医学领域,尤其是图像诊断这一块,似乎已经显示出实际应用的潜力,最近,貌似医学领域正在进入人工智能时代,新的研究层出不穷。
▲研究者们在权威期刊《Nature》上面发表的文章近日,最新一期著名学术期刊《Nature》杂志发表了德国海德堡大学医院、德国癌症研究中心等单位上百名科学家联合完成的题为“DNA methylation-based classification of central nervous systemtumours”的论文,研究发现利用一种人工智能-机器语言进行基于DNA甲基化数据的分析可以改善脑肿瘤的诊断【1】。这项来自全球100多个实验室的近150位科学家联合发表的《自然》论文报道了他们开发的一个超级AI系统,基于肿瘤组织DNA的甲基化数据,可以准确区分近100种不同的中枢神经系统肿瘤。更厉害的是,这个AI系统还能发现一些指南里面没有的新分类。这对于癌症的精准治疗而言,又是个巨大的进步。
▶中国在AI领域人才不足
◀开发人工智能最重要的是什么?各有各的说法,人才,程序,各种相应的硬件等等。然而,要做成一个世界级的产业,仅仅有上面的几样是远远不够的。何况,我国在AI最重要的之一:人才,方面显现出巨大的短板。最新的一个报告显示,我国人工智能AI在全球人才排行榜中仅占第七位,比西班牙还落后,这不得不说让人大吃一惊!每天观看媒体报道各种人工智能新闻,还以为我国AI人才早就雄踞世界第一了呢?结果只比印度好一点。AI人才的不足无法撑起我国在人工智能领域的全球雄心壮志!
▲各国AI人才排行榜,我国仅排第七位,面临人才不足的巨大短板(图片来自新智元)
▶人,教育AI的良师
◀虽然目前中国在AI方面的“人才”尚不足以撑起AI领域俾睨天下的雄心壮志,然而,中国最多的是什么?一个字:人!为何“人多”能够让我国在人工智能产业中取得较大优势?这还得从人工智能的原初问题说起,想一想人工智能是怎么来的?说到底,一个人工智能程序比如医学相关的AI刚刚出生的时候,也就是程序猿编码完成在电脑上面运行之时,跟刚刚出生、呱呱坠地的人类小孩一样,什么也不懂,傻傻分不清东西南北,一点也不智能化。这个时候,就需要让AI进行学习,不断地学习它才能够逐渐长大,最后变得厉害;你若不让它学习,告诉它哪里是错的,哪里是对的,哪种情况下该做什么判断的话,它永远都只不过是代码而已!
而它学习的课本是什么呢?这就是问题的关键了,它学习的课本叫做:数据,而且是大数据!数据量越庞大,AI通过学习这些庞大的数据之后,判断的越精准,犯错的可能性就越小。而谁能够产生数据?一个字:人!因此,一切便还是回到人身上。而对于医学领域而言,一切便回到患者和正常人到底有何不同上面。若是数据量太小,比如几十个样本的数据,最终要想让AI通过学习这么点样本来做出判断肯定是不行的,而若是有几十万例样本来供AI学习,它做出的判断必然将更加准确。
未来,可以预计会诞生一种职业:教育人工智能AI。从事这一职业的也可以叫做:人工智能培训师。怎么说?举个不那么恰当的例子,比如教育小孩子的幼儿园、小学等等,质量高的那种学校,比如老师好、课本好等,完全是爆满,家长们挤破头也要让自己的小孩子进去学习;既然人工智能刚开始像小孩子,也需要教育,那么,那种质量高的老师以及高质量的学习课本就至关重要了。因此,构建高质量的病例数据库,也就是人工智能AI学习的“课本”,是办好人工智能教育的关键。
▶张康,教育AI的好老师◀就在上个月,2月23日,广州市妇女儿童医疗中心基因检测中心、临床数据中心、医学影像部及眼科等科研团队在世界顶级期刊《Cell》以封面文章的形式发表了一篇人工智能(AI)在医疗领域应用的重磅研究成果:Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep Learning (基于深度学习开发出一个能诊断眼病和肺炎两大类疾病的AI系统)【2】 。
▲各国上个月张康教授团队的AI应用成果登上《Cell》封面这篇《Cell》封面文章由广州市妇女儿童医疗中心基因检测中心主任、加州大学圣地亚哥分校Shiley眼科研究所教授张康教授研究团队将前期跨病种迁移学习的研究成果率先转移到了眼科OCT数据领域。研究团队从黄斑变性和糖尿病视网膜黄斑水肿这两种最常见、可导致不可逆失明的疾病切入,让基于迁移学习算法的新一代AI平台不停地学习OCT图像数据。在学习了超过20万病例的OCT图像数据后,该平台诊断黄斑变性、黄斑水肿的准确性达到96.6%,灵敏性达到97.8%,特异性达到97.4%,检测准确率达到曲线下面积99.9%。与5名眼科医生诊断结果相PK,确认平台可以达到训练有素的眼科医生的水平,并在30秒内决定病人是否应该接受治疗。
▲张康教授张康教授表示:“黄斑变性和黄斑水肿是这两种常见危险性较大的眼病,如果及早发现的话,两者都是可以治疗的,但遗憾的是这两种病的诊疗资源一般都直以来都集中在城市地区的一些医院里的资深专家身边。现在我们的人工智能平台可以不受人员不受区域的限制,可以在世界任何地方让更多的患者早发现、早诊断、早治疗”。看到没?张康教授就是一个教育人工智能AI的好的老师,并且,张康教授在广州妇女儿童医疗中心得到了教育人工智能AI的高质量“课本”:超过20万病例的OCT图像数据。随着区块链加密技术的超级迅猛增长,中国目前完全有条件编写教育AI的高质量的课本:医院里面的各种病例影像资料等。
毕竟,小孩子生出来都差不多,以后取得的千差万别的人生,关键在于教育。类似地,人工智能AI的算法、程序等等,还是有不少人能够办到,而关键还是在于“教育”人工智能,而教育的关键则在于“课本”质量。而要得到“课本”,则不光是程序猿就能够办到,这是一个交叉学科,没有高质量的医生和医院收集判断患者的各种资料,程序猿也只能望洋兴叹,而在整个编撰“AI教科书”的过程中,程序猿只能起辅助医生的作用,否则,你程序猿去看个CT片子试试?
▶肿瘤DNA甲基化分型◀肿瘤的正确诊断对于后期治疗至关重要。在过去的一个世纪中,CNS肿瘤的分类主要是依据对组织发生的认识,人们可以根据肿瘤与某种起源细胞的相似性和推定的分化水平对其进行分类。一般而言,组织学上的特征主要取决于显微镜下苏木精-伊红染色特征、相关蛋白的免疫组织化学表达以及超微结构的特点【3】。2016年版世界卫生组织(WHO)中枢神经系统肿瘤分类相对于2007版,首次在组织学的基础上使用分子学的特征来进行肿瘤分类,从而为分子时代CNS肿瘤诊断构建了一个新的概念【4】。然而在已知的近100多种中枢神经系统肿瘤(central nervous system tumor,CNS tumor,简称“CNS肿瘤”)中,相关标准化的诊断面临很大的挑战。
近年来,肿瘤表观遗传学领域的快速发展,为肿瘤诊断分型提供了一种可靠、有效的方法。这其中,就包括DNA甲基化应用于肿瘤的分型,因为DNA甲基化特征在不同的亚类的中枢神经系统肿瘤中有所不同,因此,只要区分出这些特征并按照这些甲基化特征分类,就可以把不同的肿瘤细胞分成不同的类别。既然是要采用DNA甲基化对肿瘤进行分型,那么首先就要测定一些中枢神经系统肿瘤样品的DNA甲基化。
于是,这个庞大的研究团队开始收集样本,并用Illumina公司的主流甲基化芯片450K(可分析人体45万个甲基化位点)分析近3000份肿瘤样本的甲基化数据,几乎覆盖了目前WHO分类中全部的中枢神经系统肿瘤种类。此外,为了区分中枢神经系统肿瘤与其他肿瘤和正常脑组织之间的差异,研究团队还分析了部分间充质肿瘤、黑色素瘤、弥漫性大B细胞淋巴瘤、浆细胞瘤以及6种垂体腺瘤,以及健康脑组织的DNA甲基化情况。一般的研究者花了大把大把的钱,做到这里就草草做做分析,发个文章算了;确实,做到这里,再使用以前的老方法,拿些软件来分析分析,也可以轻易上个Nature杂志了。
然而,研究者们还并不满足,正如前面所说,这些样本产生的DNA甲基化数据是什么?对于人工智能AI而言,那就是它们的“课本”。有了这些“课本”,那就可以教育人工智能进行学习,增长经验,今后就能够对其他样本进行判断。一本万利,做这一回,以后就让人工智能来判断了,医生也可以偷一偷懒了。为了高效、迅速的对CNS肿瘤进行分类,研究人员开发了一个机器学习程序,它可以对甲基化数据进行分类。开发出来的程序经过训练后,可以使用甲基化指纹鉴定91种肿瘤(82种CNS肿瘤,9种对照样本。下图)。
▲a小图表示91个甲基化特征,以及它们所属的5个类别;b小图表示2801个样本的甲基化特征降维数据图训练采用的参照数据来自约2800名癌症患者。作者在1104例已经经过人工检查的中枢神经系统肿瘤上进行了测试,发现有12%例存在误诊。该程序不仅可以提高诊断准确率,而且它的客观性还使之可以如实鉴定出新型罕见肿瘤-人工检查时,会有根据已知肿瘤类型进行诊断的压力,甚至在非典型病例中也是如此。为了让这种新方法得到广泛应用,作者生成了一款免费在线工具(Molecular Neuropathology 2.0; http://www.kitz-heidelberg.de/molecular-diagnostics),可以在区区几分钟内分析上传的数据。自2016年12月上线以来,该工具已被使用逾4500次,用户可以选择分享他们的数据,以便进一步优化算法。作者总结表示,将甲基化指纹与脑肿瘤自动分类器整合起来还可以为创造类似的肿瘤分类算法用于诊断其它癌症类型提供一个蓝图。
免责声明:本文部分内容来源于Bioart、奇点网、新智元等,仅作科学传播使用,不承担任何责任。
参考资料:1. DNA methylation-based classification ofcentral nervous system tumours.2018.2. Identifying Medical Diagnoses andTreatable Diseases by Image-Based Deep Learning.2018.3.王凯, 张姝, 施露, 王鑫, 艾林, & 戴建平. (2016). 2016 年世界卫生组织中枢神经系统肿瘤分类概述. 磁共振成像, 7(12), 881-896.4.Louis, D. N., Ohgaki, H., Wiestler, O. D.& Cavenee, W. K. WHO Classification of Tumours of the Central NervousSystem revised 4th edn (IARC, 2016).
|
|