20分钟浏览5万张图，2小时学会如何检测癌症，AI是这样学医的

在世界各地，医生们正开始依赖人工智能（AI）算法，加速诊断与治疗规划，目的是腾出更多的时间，接诊更多病人，并提高准确度。

对于医生是如何培养出来的，我们都有些大致的概念：多年的课堂学习，堆积如山的教科书和学术期刊，还有无数个小时的实习经历。

AI学医的方式则不是那么直观。

围绕算法是如何学习这些模式的，以及这种技术中可能存在的陷阱，我们联手医学AI初创企业MD.ai联合创始人利奥·陈（Leo Chen），以及放射科医生卢克·奥克登-雷纳（Luke Oakden-Rayner）训练了两个算法，让它跟医学专业人士一较高下。其中一个算法检测肿瘤性结节，另一个则评估其为恶性肿瘤的可能性。

医用AI的开发通常是复杂的模式匹配：一个算法浏览无数器官扫描图像，包括有肿瘤的和没有肿瘤的，学着区分这两个类别。

我们给算法馈送了近20万张CT扫描图像，包括2D和3D图像，其中有恶性肿瘤、良性肿瘤，也有不存在肿瘤的图像。为测量算法的准确程度，我们采用了“召回率”指标，跟医生们所用的办法相同。它测量的是给定虚警数量的情况下，算法对结节的检出率。比如，“60%召回@1”的意思是：在每张图像允许一个虚警的情况下，它能正确检出60%的肿瘤。对于另一个检测恶性肿瘤的算法，体现准确率的指标相对简单：正确检出的恶性结节的百分比。

从理论上讲，这个虚警数字的高低是可以调节的，但会影响到结节的检出率。比如，若每准确检出一个结节，我们都允许出现4个虚警，那么，结节的检出率就会增加。在现实运用中，虚警率越高，病人接受的不必要检查就越多。但对于算法的敏感度，每个医生所能接受的水平不尽相同，有的看重准确率，有的着重降低虚警率，具体视各人的工作流程而定。

红圈中的白点是一个小的结节。其余白点都不是结节。

训练完成度：0%；

阅览图片数：0；

耗时：00:00:00

机器

结节检出率：0.00% @Recall

恶性检出率：0.00% @Recall

放射科医生：AI系统要学会两种技能——检测肺部结节，并判断哪些可能为恶性。

检测：结节是一种很小的组织，正常情况下一般不存在于肺部。寻找结节是经典的“大海捞针”型问题。这是因为，结节通常很小，乍一看去，很多结构都与之类似，比如血管和疤痕。
恶性肿瘤检测：放射科医生借助一系列特点，判断哪些结节可能为恶性肿瘤。最常用的是弗莱施纳判断标准，只考虑结节的大小和数量，以及吸烟等风险因素。其他系统更加复杂，包括了形状和结节出现的位置。

训练完成度：25%；

阅览图片数：0；

耗时：00：00：00

机器

结节检出率：46.40% @Recall1

恶性检出率：46.32% @Recall1

放射科医生：这个时候，AI对结节一无所知。通常，它会标记一个血管，不能肯定其是否为结节，但怀疑可能是恶性肿瘤。但实际上，恶性肿瘤只出现于结节中，所以上述结果自相矛盾。

而人类就会知道，这既然不是结节，自然也不会是恶性肿瘤，因为它存在分岔，明显属于血管。

训练进行到一半，AI系统认为，大肠肠壁上的这一褶皱可能为肺部结节。

训练完成度：50%；

阅览图片数：95,166；

耗时：00:36:39

机器

结节检出率：59.80% @Recall1

恶性检出率：68.71% @Recall1

放射科医生：到这个时候，AI在检测大型结节（直径超过1cm的结节）时，已经能相当肯定。但它仍没有学到一些简单的教训。比如，在完全正常的肺部，甚至在肠道部位，它都会比较肯定地检测出“肺部”结节。这揭示出当代AI的一个特点：常识的彻底缺失。三岁小孩都知道胸和腹的区别，但AI就只会寻找“类似结节”的模式，而不知腹部为何物。

AI系统开始知道，在肺部的边缘，这种小疙瘩几乎可以肯定不是恶性肿瘤。

训练完成度：75%；

阅览图片数：142,749；

耗时：00:55:29

机器

结节检出率：64.30% @Recall1

恶性检出率：76.38% @Recall1

放射科医生：到这时，AI渐渐摸着了门道。它高度肯定为结节的点，几乎全部都为结节。即使它不太肯定的点也都是“类似结节”。有一项任务即使对人类而言也较为困难，那就是区分结节和先前感染留下的疤。一般而言，肺部最边缘的细小结节总是良性的，可以忽略。这个时候，AI系统已经很擅长于此。它并不确定这些东西是结节（实际并不是），并能肯定它们不是恶性肿瘤。

AI认为，红圈内的点是一个结节，但不属于恶性肿瘤；而白圈内的大型结节肯定为恶性肿瘤。

训练完成度：100%；

阅览图片数：190,332；

耗时：00:55:29

机器

结节检出率：67.90% @Recall1

恶性检出率：82.82% @Recall1

放射科医生：训练完成后，模型的表现已经相当不错。只就极其肯定的预测而言，大部分可疑的大型结节都被检测了出来。

正如我们所希望的那样，模型几乎100%肯定：这些大型结节是恶性肿瘤。放射科医生绝对会把它们当恶性肿瘤看待，直到该可能性被排除。AI系统也同样“操心”。

而在AI不太肯定的预测中，一种有趣的模式开始呈现：对于肺部“类似结节”的点，AI系统不确定其为结节，但肯定它们不是恶性肿瘤。在很多情况下，AI比较肯定那是结节，但100%肯定它是良性的。虽然，人类从一开始就不会管那些结构叫做“结节”，但对病人来说，最终答案是一样的。

AI系统十分肯定地认为，红圈内的点是一个结节，但几乎可以肯定它并非恶性肿瘤。放射科医生同意这一判断；具体而言，它处在肺部边缘，且位于大动脉后面，比较让人放心。另一方面，图片顶部的大型结节（白圈内）几乎肯定是恶性肿瘤；AI系统得出了相同的判断。

AI系统还学会了一个比较棘手的问题：钙化结节几乎肯定是良性的，但在数据集中，这类结节并不多见，因此，AI系统很难掌握这个知识点。对人类而言，这太容易了，只要认得“钙化”就行了。一旦知道要找什么，我们甚至都不用练习，一上手就能找到正确答案。

AI系统无法理解“钙化”的概念，只能通过学习，判断某种图像模式属于良性。比如在这个项目中，钙化结节的密度比非钙化结节的密度大（在图中显得更亮）。见多了这种结节，并知道它们从来不是恶性肿瘤，AI就掌握了这种模式。

有一种特定的结节较难判断，因为它是钙化的，同时又很大（体积较大是恶性肿瘤的有力指标）。起初，AI认为，它们绝对是恶性肿瘤，在接受了5万张图的训练之后，它依然这样认为。但训练到10万张图的时候，它已经能100%确定，这种结节是良性的，因为它发现，关键要看密度。

红圈内的结节密度很大（在图中显得很亮），白圈内的结节密度较小（呈灰色）。前者是良性钙化结节，而后者几乎肯定是恶性肿瘤。

结论

AI表现非常之好，不过尚未企及放射科医生的水平。

这主要是因为数据集不够大，CT扫描图像不足1000张。科技公司或医院开发的类似系统会使用几千甚至几万张图像。我们采用的是一个免费数据集，而IBM等公司不惜斥资几十亿美元，收购企业及其训练数据，就是为了这些。更加多样化的训练绝对对它有利。有了足够多的数据，它将能媲美人类表现。

该项目凸显了人类与当代AI系统的主要区别。人类很擅长学习，因为已有的知识充当了脚手架。以钙化结节为例。人类一学就会，因为相对于非钙化结节，钙化结节密度更大（在图片中显得更亮）。“密度很大的结节是钙化结节，因而是良性的。”只要这么一说，你就明白了，甚至不用练习，你就能得出正确答案。

然而，AI系统没有吸纳知识的途径；它无法理解“钙化”这一概念，也不知道钙化结节是良性的，因此，就需要通过无数例子，构建出这种认知。在本项目中，它就借助5万张图片，学会了一条人类一点就通的知识。

但另一方面，AI系统获取经验的速度也很快。它浏览5万张图只用了不到20分钟，而人类可能要花数年。因此，对于更加复杂的决定，当经验比知识更加宝贵时，AI系统就有望胜人一筹。

翻译：雁行

编辑：李莉

来源：QUARTZ

造就：剧院式演讲，发现创造力

更多精彩内容，敬请点击蓝字“了解更多”。

相关阅读
最新资讯
热点话题

更多相关

更多资讯

· 政府出手：乙肝“药霸”降价90% 肺癌救命药降75%！

更多热点