查看: 8929|回复: 0

[影像组学] 数据分组

[复制链接]

824

主题

368

回帖

293

日志

荣誉会员

积分
6528
QQ
发表于 2018-10-25 01:49:25 | 显示全部楼层 |阅读模式
当我们手上有了医学影像数据(以及特征值)和跟医学图像对应的临床结果(如良恶性,基因数据或预后等),我们就进入了影像组学研究中最主要的部分,即使用数据训练模型,并且检验模型的准确性。如果模型的预测准确性高于现有的诊断和评估手段,那么就表明此组学研究所找到的影像特征(或特征的组合)能够提供新的临床价值。

475c2860af85c1b91edb2e07b160a4b9.jpg
模型训练及检验的基本流程如上图所示,而数据的分组是将收集到的临床和影像数据集分为三组:训练数据,验证数据和测试数据。
影像组学研究是机器学习技术在医学影像数据上的应用,而机器学习的目的就是使得计算机能够模拟出人类“学习”的过程。那么这里就通过一个类比来解释这三组数据的意义:
假设你是一个补课老师,需要提升某个学生(模型)的考试成绩。那么在补课的时候,你会先用一组典型题目(特征值)和标准答案(临床结果)拿出来让学生练习,这个过程就是模型的训练,而这里用到的题目和标准答案就是训练数据。
但是练习完了,你并不知道学生是否真的掌握了相应的知识,所以需要一个随堂测验。当然作为一个负责任的老师,你肯定不能用刚才学生练习的题目来作为测验的考题,因为即使学生考了满分,也可能只是背下了标准答案。你要用一组学生完全没有见过的,但是覆盖了原有知识点的题目来检验。这个随堂测验就是模型验证,而使用的题目和答案就是验证数据。如果学生的随堂测验成绩没有拿到最高分,说明学生学习得不够,还有潜力可挖,那么就需要重新学习,然后再测验,如此循环,直到学生无法再提升测验成绩为止。(当然,每次循环时,你也不能用同样的训练数据和验证数据,需要用到交叉验证技术。我在后续的推文中会详细介绍,这里咱们先理解基本流程)
如果学生在随堂测验中拿到了最高分,就可以去参加真正的考试了。这个考试就是模型测试,而使用的数据就是测试数据。显然,这个考试的题目也不能跟原来练习和随堂测验的题目一样。这个考试的成绩最终反映学生(模型)掌握知识的程度。
一般而言,如果整体数据集没有明显的偏离(阳性和阴性的数据比例大致相同),训练数据、验证数据和测试数据的比例为6:2:2,即如果你收集了300组数据,则使用随机抽取的180组数据作为训练数据,60组作为验证数据,剩下的60组作为测试数据。但是如果收集的数据量非常大,训练数据的比例会上升,而验证和测试数据的比例会下降。
当然,我们在进行具体的影像组学研究时,并非像上述类比中看起来的那么简单。进行机器学习的核心内容之一就是对各个机器学习模型(包括分类模型和回归模型)的理解、使用和调制。在接下来的推文中,我会逐个简要介绍常用的模型,敬请期待。
回复 关闭延时

使用道具 举报

您需要登录后才可以回帖 登录 | 注册  

本版积分规则

快速回复 返回顶部 返回列表