20分钟浏览5万张图,2小时学会如何检测癌症,AI是这样学医的

在世界各地,医生们正开始依赖人工智能(AI)算法,加速诊断与治疗规划,目的是腾出更多的时间,接诊更多病人,并提高准确度。

对于医生是如何培养出来的,我们都有些大致的概念:多年的课堂学习,堆积如山的教科书和学术期刊,还有无数个小时的实习经历。

AI学医的方式则不是那么直观。

20分钟浏览5万张图,2小时学会如何检测癌症,AI是这样学医的

围绕算法是如何学习这些模式的,以及这种技术中可能存在的陷阱,我们联手医学AI初创企业MD.ai联合创始人利奥·陈(Leo Chen),以及放射科医生卢克·奥克登-雷纳(Luke Oakden-Rayner)训练了两个算法,让它跟医学专业人士一较高下。其中一个算法检测肿瘤性结节,另一个则评估其为恶性肿瘤的可能性。

医用AI的开发通常是复杂的模式匹配:一个算法浏览无数器官扫描图像,包括有肿瘤的和没有肿瘤的,学着区分这两个类别。

我们给算法馈送了近20万张CT扫描图像,包括2D和3D图像,其中有恶性肿瘤、良性肿瘤,也有不存在肿瘤的图像。为测量算法的准确程度,我们采用了“召回率”指标,跟医生们所用的办法相同。它测量的是给定虚警数量的情况下,算法对结节的检出率。比如,“60%召回@1”的意思是:在每张图像允许一个虚警的情况下,它能正确检出60%的肿瘤。对于另一个检测恶性肿瘤的算法,体现准确率的指标相对简单:正确检出的恶性结节的百分比。

从理论上讲,这个虚警数字的高低是可以调节的,但会影响到结节的检出率。比如,若每准确检出一个结节,我们都允许出现4个虚警,那么,结节的检出率就会增加。在现实运用中,虚警率越高,病人接受的不必要检查就越多。但对于算法的敏感度,每个医生所能接受的水平不尽相同,有的看重准确率,有的着重降低虚警率,具体视各人的工作流程而定。

20分钟浏览5万张图,2小时学会如何检测癌症,AI是这样学医的

红圈中的白点是一个小的结节。其余白点都不是结节。

训练完成度:0%;

阅览图片数:0;

耗时:00:00:00

机器

结节检出率:0.00% @Recall

恶性检出率:0.00% @Recall

放射科医生:AI系统要学会两种技能——检测肺部结节,并判断哪些可能为恶性。

  • 检测:结节是一种很小的组织,正常情况下一般不存在于肺部。寻找结节是经典的“大海捞针”型问题。这是因为,结节通常很小,乍一看去,很多结构都与之类似,比如血管和疤痕。
  • 恶性肿瘤检测:放射科医生借助一系列特点,判断哪些结节可能为恶性肿瘤。最常用的是弗莱施纳判断标准,只考虑结节的大小和数量,以及吸烟等风险因素。其他系统更加复杂,包括了形状和结节出现的位置。
20分钟浏览5万张图,2小时学会如何检测癌症,AI是这样学医的

训练完成度:25%;

阅览图片数:0;

耗时:00:00:00

机器

结节检出率:46.40% @Recall1

恶性检出率:46.32% @Recall1

放射科医生:这个时候,AI对结节一无所知。通常,它会标记一个血管,不能肯定其是否为结节,但怀疑可能是恶性肿瘤。但实际上,恶性肿瘤只出现于结节中,所以上述结果自相矛盾。

而人类就会知道,这既然不是结节,自然也不会是恶性肿瘤,因为它存在分岔,明显属于血管。

训练进行到一半,AI系统认为,大肠肠壁上的这一褶皱可能为肺部结节。

20分钟浏览5万张图,2小时学会如何检测癌症,AI是这样学医的

训练完成度:50%;

阅览图片数:95,166;

耗时:00:36:39

机器

结节检出率:59.80% @Recall1

恶性检出率:68.71% @Recall1

放射科医生:到这个时候,AI在检测大型结节(直径超过1cm的结节)时,已经能相当肯定。但它仍没有学到一些简单的教训。比如,在完全正常的肺部,甚至在肠道部位,它都会比较肯定地检测出“肺部”结节。这揭示出当代AI的一个特点:常识的彻底缺失。三岁小孩都知道胸和腹的区别,但AI就只会寻找“类似结节”的模式,而不知腹部为何物。

AI系统开始知道,在肺部的边缘,这种小疙瘩几乎可以肯定不是恶性肿瘤。

20分钟浏览5万张图,2小时学会如何检测癌症,AI是这样学医的

训练完成度:75%;

阅览图片数:142,749;

耗时:00:55:29

机器

结节检出率:64.30% @Recall1

恶性检出率:76.38% @Recall1

放射科医生:到这时,AI渐渐摸着了门道。它高度肯定为结节的点,几乎全部都为结节。即使它不太肯定的点也都是“类似结节”。有一项任务即使对人类而言也较为困难,那就是区分结节和先前感染留下的疤。一般而言,肺部最边缘的细小结节总是良性的,可以忽略。这个时候,AI系统已经很擅长于此。它并不确定这些东西是结节(实际并不是),并能肯定它们不是恶性肿瘤。

AI认为,红圈内的点是一个结节,但不属于恶性肿瘤;而白圈内的大型结节肯定为恶性肿瘤。

20分钟浏览5万张图,2小时学会如何检测癌症,AI是这样学医的

训练完成度:100%;

阅览图片数:190,332;

耗时:00:55:29

机器

结节检出率:67.90% @Recall1

恶性检出率:82.82% @Recall1

放射科医生:训练完成后,模型的表现已经相当不错。只就极其肯定的预测而言,大部分可疑的大型结节都被检测了出来。

正如我们所希望的那样,模型几乎100%肯定:这些大型结节是恶性肿瘤。放射科医生绝对会把它们当恶性肿瘤看待,直到该可能性被排除。AI系统也同样“操心”。

而在AI不太肯定的预测中,一种有趣的模式开始呈现:对于肺部“类似结节”的点,AI系统不确定其为结节,但肯定它们不是恶性肿瘤。在很多情况下,AI比较肯定那是结节,但100%肯定它是良性的。虽然,人类从一开始就不会管那些结构叫做“结节”,但对病人来说,最终答案是一样的。

AI系统十分肯定地认为,红圈内的点是一个结节,但几乎可以肯定它并非恶性肿瘤。放射科医生同意这一判断;具体而言,它处在肺部边缘,且位于大动脉后面,比较让人放心。另一方面,图片顶部的大型结节(白圈内)几乎肯定是恶性肿瘤;AI系统得出了相同的判断。

AI系统还学会了一个比较棘手的问题:钙化结节几乎肯定是良性的,但在数据集中,这类结节并不多见,因此,AI系统很难掌握这个知识点。对人类而言,这太容易了,只要认得“钙化”就行了。一旦知道要找什么,我们甚至都不用练习,一上手就能找到正确答案。

AI系统无法理解“钙化”的概念,只能通过学习,判断某种图像模式属于良性。比如在这个项目中,钙化结节的密度比非钙化结节的密度大(在图中显得更亮)。见多了这种结节,并知道它们从来不是恶性肿瘤,AI就掌握了这种模式。

有一种特定的结节较难判断,因为它是钙化的,同时又很大(体积较大是恶性肿瘤的有力指标)。起初,AI认为,它们绝对是恶性肿瘤,在接受了5万张图的训练之后,它依然这样认为。但训练到10万张图的时候,它已经能100%确定,这种结节是良性的,因为它发现,关键要看密度。

20分钟浏览5万张图,2小时学会如何检测癌症,AI是这样学医的

红圈内的结节密度很大(在图中显得很亮),白圈内的结节密度较小(呈灰色)。前者是良性钙化结节,而后者几乎肯定是恶性肿瘤。

结论

AI表现非常之好,不过尚未企及放射科医生的水平。

这主要是因为数据集不够大,CT扫描图像不足1000张。科技公司或医院开发的类似系统会使用几千甚至几万张图像。我们采用的是一个免费数据集,而IBM等公司不惜斥资几十亿美元,收购企业及其训练数据,就是为了这些。更加多样化的训练绝对对它有利。有了足够多的数据,它将能媲美人类表现。

该项目凸显了人类与当代AI系统的主要区别。人类很擅长学习,因为已有的知识充当了脚手架。以钙化结节为例。人类一学就会,因为相对于非钙化结节,钙化结节密度更大(在图片中显得更亮)。“密度很大的结节是钙化结节,因而是良性的。”只要这么一说,你就明白了,甚至不用练习,你就能得出正确答案。

然而,AI系统没有吸纳知识的途径;它无法理解“钙化”这一概念,也不知道钙化结节是良性的,因此,就需要通过无数例子,构建出这种认知。在本项目中,它就借助5万张图片,学会了一条人类一点就通的知识。

但另一方面,AI系统获取经验的速度也很快。它浏览5万张图只用了不到20分钟,而人类可能要花数年。因此,对于更加复杂的决定,当经验比知识更加宝贵时,AI系统就有望胜人一筹。

翻译:雁行

编辑:李莉

来源:QUARTZ

造就:剧院式演讲,发现创造力

更多精彩内容,敬请点击蓝字“了解更多”。

相关标签:钙化结节恶性肿瘤算法放射科医生AI系统AI 好消息:有这9个特征的人 放心吧 癌症离你很远乳房上的红点是癌症的征兆吗?