一、
2016年11月的一个晚上,美国纽约布朗克斯区(Bronx)的一名54岁女子因为严重头痛被送至哥伦比亚大学(Columbia University)医疗中心的急诊室。她对急诊室医生说自己视力变得模糊,左手感到麻木无力。医生安排了CT检查。
过了几个月后,1月的某个上午,4名放射科医师挤在医院三楼一间房子的电脑前,房间黑暗无窗,只有屏幕的光,看起来好像被海水过滤。哥伦比亚大学神经放射科主任Angela Lignelli-Dipple博士拿着铅笔和平板电脑站在一群住院医师身后。她正在训练他们读CT片子。
▲Angela Lignelli-Dipple博士(图片来源:columbiadoctors)
Lignelli-Dipple博士说:“一旦大脑显示出死亡和灰色,诊断中风很容易。关键是在大多数神经细胞死亡之前诊断出中风。”中风通常是由血管堵塞或出血引起的,神经放射学家大约有45分钟的窗口时间,这样医生才能够及时进行医学干预,溶解血凝块。“想像你现在就在急诊室,”Lignelli-Dipple博士继续说道,“每一分钟过去,大脑的某一部分也死去。失去时间就意味着失去大脑。”
她瞥了一眼墙上的时钟,秒针滴答响。她问这些医生,“问题到底在哪里呢?”
中风通常发生在单侧。血液进入大脑后分别流向左右两侧,然后再流到血管分支。血凝块或出血通常只会影响这些分支中的一个,导致大脑单侧的功能缺陷。当神经细胞失去供血并死亡时,组织会稍微膨胀。CT影像上,解剖结构的边界可能变得模糊。最终,组织收缩,尾随着阴影。但是,这种阴影通常会在CT扫描几个小时甚至几天之后才会出现,这时候早就过了干预窗口期。“在此之前,”Lignelli-Dipple博士告诉我:“CT上只会出现少许暗示。”这是中风的预兆。
电脑屏幕上显示着这名布朗克斯区女子的脑部CT图像,从头骨底部到顶部水平扫描,看起来像是一个切开的瓜。住院医师们快速过每一张图片,仿佛快速翻阅一本书,同时说出每一个解剖结构:小脑、海马体、岛状皮层、纹状体、胼胝体、脑室。突然,一名20多岁的住院医师停在一张片子上,用笔尖指着右侧脑部的一块区域说:“这里有些东西。边界看起来模糊。”对我来说,整个图像看起来都那么不协调和模糊——模糊的像素——但他显然看到一些不寻常的东西。
▲大脑CT图片,红圈处为中风区域(图片来源:brainpictures)
“模糊?”Lignelli-Dipple博士提高声音,“你能描述清楚一点吗?”
这名住院医师在努力搜索词汇。他停顿住,就像进入自己大脑的解剖结构考虑各种可能。最后他说“这里不连续。”然后耸了耸肩,“我不知道,只是看起来很有意思。”
接着,Lignelli-Dipple博士拿出20小时后的第二次CT扫描结果,这名住院医师指的地方变得混沌和膨胀。几天后的一系列扫描结果说明了后面发生的事,一个明显的楔形场灰色出现了。实际上,这名妇女到达急诊室后不久,神经科医生就试着用药物疏通堵塞的动脉,但是她到得太晚了。第一次CT扫描几个小时过后,她开始失去意识,马上被送进ICU病房。过了2个月,她还在住院治疗,身体的左侧从上臂到腿全部瘫痪。
我和Lignelli-Dipple博士起去了她的办公室。我就从那里学到了“学习”:医生如何学习诊断?机器也能学会诊断吗?
二、
我对诊断的认识是从1997年秋天开始,当时我在波士顿的医院进行临床实习轮转。准备实习时,我读了一本经典的医学教科书,上面将诊断行为分为四个阶段。首先,医生通过患者的病史和身体检查来收集患者主诉或身体状况。接下来,整理这些信息以生成潜在原因列表。然后,通过问诊和初步检测帮助消除某些假设,并加强其他假设,这就是所谓的“鉴别诊断”。医生权衡疾病的发病率、患者的病史、风险和暴露情况等因素(就像俗话说的,“当你听到蹄声时,应该想到马而不是斑马”)。通过把清单项目一个个排除,医生优化自己的判断。最后,医生会采用实验室检验,比如X射线或CT扫描来进一步确认假设并得出诊断结论。这种逐步判断的过程在医学教科书中传授了数十年,诊断从症状到病因严格的方法学被逐渐印在了几代医学生身上。
但是,我很快意识到真正的诊断艺术并没那么简单。我的医学院主任是一个优雅的新英格兰人,常穿一双光亮的鞋,口音僵硬。他深以自己为诊断专家而自豪。他会要求病人展示出一种症状,比如咳嗽,然后靠到椅子里,说出一串形容词。他可能会说“刺耳尖锐的”,或者说“沉闷的”,仿佛在描述一瓶波尔多葡萄酒。对我来说,所有的咳嗽都听起来完全一样,但是我会跟着一起说“是的,刺耳”,就像一个忧虑的葡萄酒品酒师。
对咳嗽的分类会立即缩小诊断的可能性。他可能会说,“听起来好像是一种肺炎”,或者说是“充血性心力衰竭的湿疹”。接着,他会问一大堆问题。病人最近体重是否增加?有没有接触石棉?他会要求病人再次咳嗽,俯身用听诊器仔细聆听。根据回答,他可能会判断另外的可能性。然后,他会像路边魔术师那样突然宣布诊断结果“心力衰竭!”——并开出检验单来验证。结果通常都没错。
几年前,巴西的研究人员研究了放射科专家的大脑,以了解他们如何做出诊断。这些经验丰富的诊断医师到底是用精神的“规则手册”,还是“模式识别或非分析推理”对图像进行识别?
参加实验的25名放射科医生被要求观看肺部X射线片子,MRI用来跟踪他们大脑的活动。X射线图像在他们之前闪过。一组图像包含常见的单一病理损伤,可能是肺部的棕榈状阴影,或者积聚在肺内衬层后面的沉闷,不透明的流体壁。第二组图像是动物线条图; 第三组是字母轮廓。三种类型的图像随机展示,放射科医生需要尽快说出病灶,动物或字母的名称,而MRI机器追踪他们大脑的活动。放射科医生平均需要1.33秒才能做出诊断。在所有三种情况下,大脑相同的区域亮起:左耳附近的神经元宽三角洲,还有颅骨后基上方的蛾形带。
研究人员最后总结:当医生识别出某种特征或以前已知的病变时,大脑过程与识别日常生活的事物相似。识别病变类似于识别动物的过程。当你认识犀牛时,你不会考虑其他动物。你也不会认为是独角兽,穿山甲和小象组成的动物。你是从整体认知犀牛的——作为一种模式。放射科医生也是如此。他们没有经过沉思,回忆,区分,而是看到一个普通的东西。我的老师也一样,那些湿漉漉的声音也像一个熟悉的叮当声一样被认出。
三、
1945年,英国哲学家Gilbert Ryle先生做了一场很有影响力的报告,关于两种知识类型。一个孩子知道自行车有两个轮子,它的轮胎充满了空气,踩着脚踏板转圈车子会向前走。Ryle先生将这种知识称为事实的、命题的类别—— 即“知道是什么”。但是学习骑自行车涉及另一个学习领域。一个孩子通过摔跤,在两轮上平衡,走坑洼路而学会骑车。Ryle先生将这种知识成为隐含的,体验式的,基于技能的——即“知道怎么做”。
▲英国哲学家Gilbert Ryle先生(图片来源:philosophybasics)
这两种知识似乎是相互依赖的:你可以使用事实知识来深化你的体验知识,反之亦然。但是,Ryle先生也提出,不能从“知道是什么”简单推导出“知道怎么做”,正如一本教导手册无法教会孩子骑自行车。他说,只有当我们知道怎么运用规则时,规则才有意义:“规则就像鸟儿一样,在做成标本之前必须活着。”一天下午,我看着7岁的女儿骑着自行车越过一座小坡。她第一次在斜坡最陡峭的地方摔了下来。第二次,我看到她稍微向前倾斜,然后更加倾斜,她不断根据斜坡的减缓调整身体重量在座位上的分布。但是我并没有教过她骑车上坡的规则。我认为她也不会教她的女儿骑车上坡的规则。我们教给大脑一些常识,让它自己去解决剩下的问题。
在参加Lignelli-Dipple博士给放射科学员的培训之后,我和Steffen Haider先生谈过,他就是那个在CT片子上发现早期卒中的年轻人。他是怎么发现病变的?是“知道是那样”还是“知道怎么做”?他开始告诉我有关学习的规则——中风往往是单边的,它们导致组织微妙的“变灰”, 组织常表现出微肿,造成解剖边界的模糊。他说:“大脑中有供血特别脆弱的地方。为了识别病变,他必须在单侧脑室搜索跟另一侧不一样的地方。
我提醒他,有很多不对称的影像他都忽略了。事实上大多数CT片子上都会有很多只出现在单侧脑室的阴影,他是怎么把注意力缩小到那个正确的部位?他停下来想了很久回答,“我不知道,有些潜意识的感觉。”
他的老师Lignelli-Dipple博士告诉我,“这就是放射科医生的成长和学习”。问题是,机器能否以同样的方式“成长和学习”?
四、
2015年1月,计算机科学家Sebastian Thrun博士对医学诊断的难题感兴趣。Thrun博士在德国长大,精瘦的,剃着光头,有一种喜感,看起来像Michel Foucault(法国哲学家)先生和憨豆先生的组合。他曾是斯坦福大学(Stanford University)教授,研究方向是人工智能;随后去了Google公司,在那里发起了Google X项目,从事自学机器人和无人驾驶汽车的研究工作。后来,他的兴趣又转向医学中的机器学习。其母49岁死于乳腺癌。现在Thrun博士也正好49岁。他谈到“大多数癌症患者是没有症状的,我妈妈就是这样。当她去看医生时,癌症已经转移了。所以,我很想在还可以进行手术的早期阶段发现癌症。我一直在想,机器学习算法能做到吗?”
▲计算机科学家Sebastian Thrun博士(图片来源:斯坦福大学官网)
自动化诊断的早期研究是让机器学习教科书的显性知识。在过去20年中,电脑解读是自动化诊断的一大特点,解决方案往往比较简单。比如记录心电图,这是一种在纸或屏幕上显示心脏活动的线条。心电图的特征波形与各种疾病相关——心房颤动或血管阻塞。将识别波形的规则输入到应用中,当机器识别波形时,就给这部分心跳标记,例如“心房颤动”。
在乳腺X线照相术中,“计算机辅助检测”也很常见。模式识别软件突出显示可疑部位,放射科医师审查结果。但是,识别软件依然是典型地使用基于规则的系统来识别可疑病变。这样的程序没有内置的学习机制,一台已经看过3000张X光片的机器并不比仅仅看过4张的更聪明。2007年的一项研究比较了采用计算机辅助诊断前后乳房X线照相术的准确性。人们可能觉得在加入计算机之后,诊断的准确性会显著增加。事实是,虽然计算机辅助组的活检比例迅速上升,但是肿瘤学家最希望发现的小的浸润性乳腺癌比例,反而减少了。后来还发现假阳性的问题。
Thrun博士相信他可以超越这些第一代诊断设备,将它们从基于规则的算法转变为基于学习的算法来——从“知道怎么做”而不是“知道是什么”来做出诊断结论。跟Thrun博士类似的学习算法越来越多地采用了“神经网络”的计算策略,因为它们的设计灵感来自于大脑功能模型。在大脑中,神经突触通过反复激活得到加强或减弱,这些算法也希望采用数学手段实现类似的认知方式,不断调整判断依据的“权重”,使输出结果逐渐走向准确。另一种更强大学习算法则类似大脑神经元层,每层处理输入数据并将结果发送到下一层。因此,也被称为“深度学习”。
可以教会机器通过扫描照片区分皮肤癌与良性皮肤疾病——痤疮,皮疹或痣吗?Thrun博士推理,“如果皮肤科医生可以做到这一点,那么机器也应该能够做到。也许机器还可以做得更好。”Thrun博士从皮肤癌开始进行研究。他选了角化细胞恶性肿瘤(美国最常见的一类癌症)和黑色素瘤(恶性程度最高的皮肤癌)。
传统上,皮肤病学教学黑色素瘤从认识基本规则开始,就像医学生学习的口诀:ABCD。黑色素瘤通常是不对称的(“A”,asymmetrical ),边界(“B”,borders )不均匀,颜色(“C”,color)是斑块状或杂色的,并且直径(“D”,diameter )通常大于6毫米。但是,当Thrun博士在医学教科书和网络上查看黑素瘤标本时,发现了不符合以上规则的病例。
当时在斯坦福大学任兼职教授的Thrun博士招募了2名学生Andre Esteva先生和Brett Kuprel先生来开展工作。他们的第一个任务是编一个所谓的“教材包”——收集大量的图片用于教导机器识别恶性肿瘤。学生在网上搜了18个皮肤病例图像分类库,含有13万张图片,包括各种皮肤状况,涉及2000种疾病,包括痤疮,皮疹,昆虫叮咬,过敏反应和癌症等。值得注意的是,有一组2000个病变已经过病理学活检确诊。
接下来Esteva先生和Kuprel先生开始培训系统。他们没有用规则编程,没有教ABCD原则。相反,他们只是将这些图像资料及诊断分类标准提供给神经网络。我请Thrun描述一下这样一个网络。
他说:“想象一下老式的程序怎么识别狗。软件工程师会写1000行if-then-else的逻辑代码:如果有耳朵,猪嘴,并有头发,则不是老鼠……等等无限的判断语句。但是,这显然不是小孩认识狗的方式。起初,小孩通过看见狗,被教导这是狗而认识狗;她会认错,然后纠正自己。比如她会把狼认成狗,然后被大人纠正这两种动物不是同一类。她一次次调整自我认知:这是“狗”,那是“狼”。
机器学习也是这样。它会从已分类的训练中提取信息。这张图是狗,那张图不是狗。它会从不同类别中归纳出特征。通过观察成百上千张归类的图片,它最终形成自己认狗的方法,这和小孩认狗的方法一样。他们只是知道怎么做。
2015年6月,Thrun博士的团队通过“验证包”来测试机器从教材图像的学习成果。采用由皮肤科医生给出诊断(不一定是活检)结果的大约14,000张图像,测试机器能否将图像正确归到以下三类——良性病变,恶性病变和非肿瘤学增生。系统得到了72%的正确率(算法实际输出的判断不是“是”或“否”,而是某种病变的概率)。2名经过斯坦福大学董事会认证的皮肤科医生同时参加测试,他们只得到66%的正确率。
接着,Thrun博士、Esteva先生和Kuprel先生又将研究范围扩大到25名皮肤科医师,这次他们使用了金标准“测试包”,经过活检验证的约2000张图片。在几乎每一次测试中,机器的敏感性(不会错过阳性样本)和特异性(不会误认阴性样本)都更高。该团队在自然杂志发表的一篇论文中得出这样的结论:“在每次测试中,算法均优于专业的皮肤科医师。”
在这篇文章中没有被完全强调的一点是,在研究的第一次迭代中,Thrun博士的团队使用了一个崭新的神经网络。但是他们发现,如果一开始使用的是已经受训并能识别一些不相关的特征(比如狗与猫)的神经网络,它会学得更快并且更好。也许我们的大脑也有类似功能。那些让人心烦的高中习题——多项式因子分解,动词的共轭形式,记忆元素周期表,可能是相反类型的知识。我们的意识非常敏感。
Thrun博士希望人们有一天可以简单用智能手机提交令人担忧的病变照片,这意味着系统需要能够识别各种角度和光线。但是,在教机器时,需要对图像进行仔细处理。他提到“在一些图片中,黑色素瘤已被标记为黄色。我们不得不把这些图片剔除,否则机器就会学到黄色是癌症的一种特征。”
这是一个古老的难题:一个世纪前,德国公众被聪明的汉斯(一匹可以做加减法的马)吸引——它可以通过踏蹄来表达出答案。事实证明,聪明的汉斯实际上是感觉到它的训练者的表情。随着马的蹄头接近正确答案,训练者的表情和姿势就会放松。动物的神经网络没有学过算术,但它学会识别人身体语言的变化。Thrun博士说,“这就是神经网络奇特的地方,你不知道它们会接受什么。它们就像黑匣子,里面的工作是神秘的。”
“黑匣子”问题在深度学习中很流行。Thrun博士研发的算法系统不是由明确的医学知识库和诊断规则列表引导的,它通过进行大量的内部调整,有效地自学如何区分痣与黑素瘤,类似于加强和削弱大脑中的神经突触连接。究竟它是如何确定病变是黑色素瘤的?我们不知道,它也不能告诉我们。神经网络学习时的内部修正和处理过程均不受我们控制。正如我们自己的大脑一样。当你在自行车上慢慢转弯时,你会倾斜向相反的方向。我的女儿知道要这么做,但她没意识到她在这么做。黑素瘤学习机肯定从图像中提取了某些特征,但它没法告诉我们是哪个特征,这重要吗?这就像知识上帝在微笑。机器学习要做到这一点,可以从动物如何读懂人的思维得到启示:这也就是“只可意会不可言传”。
关于未来,Thrun博士构想了一个人类不断被诊断监视的世界。我们的手机将分析移动的语音模式来诊断阿兹海默病;方向盘会通过微小的犹豫和震颤来识别初期的帕金森病;浴缸在你洗澡时通过无害的超声波或磁共振对身体扫描,以确定卵巢中是否有异常。大数据将观察、记录和评估你:我们穿梭于一个又一个算法中。进入Thrun博士的浴缸和方向盘的世界就像进入一个布满皮肤科诊疗镜的大厅,每个镜子都督促我们做更多测试。
真的很难不被这个愿景吸引。一个不间断地扫描我们(甚至细胞层面)的医学程序,通过比较每一天图像的变化,能够发现最早期的癌症吗?它能否为癌症检测提供突破?这场景听起来令人印象深刻,但有一点要知道的是:许多癌症始终是自限性的(不会发展成恶性肿瘤),我们可能带癌死亡,不是因癌死亡。这种随时随地的诊断机器会不会导致数百万次不必要的活检?在医学上,有些病例早期诊断出来可以挽救或延长生命。还有一些情况,你只会担心更长,但不会活得更长。要了解到什么程度,这是个难题。
当我问他这种系统对诊断学家的影响。Thrun博士回答道,“我对放大人类能力感兴趣。你说现代农业是否消除了一些原始的耕种方式?绝对是的,但它同时也扩大了我们生产农产品的能力。并不是说现代农业的一切都是好的,但它确实使我们能够养活更多的人。工业革命放大了人类的体力。手机放大了人类的言语能力。过去你不能从纽约对着加州的人喊话——我们俩确实通过这个距离对话——而你手中的这个长方形的设备可以让人的声音传播三千里。手机取代了人声吗?不,手机是一个增强装置。认知革命将使计算机以同样的方式放大人类的思维能力。正如机器使人类肌肉的强度提高了一千倍,机器也将使人类的脑力变得更强大。”Thrun博士坚持认为,这些深入学习仪器将不会取代皮肤科医生和放射科医生。它们会提供专业知识和帮助,使专业人员的能力增强。
五、
多伦多大学(University of Toronto)计算机科学家Geoffrey Hinton博士谈到学习机在临床医学中所起的作用就没那么客气了。他的曾曾祖父George Boole先生发明的Boole代数是数字计算的基石,因此也被誉为深度学习之父。Hinton博士从1970年代末就开始研究深度学习,他的许多学生今天已经成为这个领域的专家。
▲计算机科学家Geoffrey Hinton博士(图片来源:多伦多大学官网)
Hinton博士告诉我,“我认为放射科医生就像卡通漫画里的歪心狼一样(Wile E. Coyote),已经在悬崖的边缘,却没看到下面已经没有路了。”乳房和心脏影像方面已经有深度学习产品面世。Hinton博士曾在一家医院直言不讳地说,“5到10年内深度学习超越放射医师是显而易见的。现在就不应该继续培养放射科医生。”
当我问放射科医生Angela Lignelli-Dipple博士这个挑战性的问题,她指出,诊断放射科医生的作用不仅仅是某种疾病类别判断是或否。他们不只是找到引起中风的栓塞部位,还会注意到其他部位的少量出血,这种情况用凝血药会带来灾难性的后果;此外还可能意外地发现尚无症状的肿瘤。
▲Geoffrey Hinton博士认为,“歪心狼”的处境也许和目前的放射科医生有些相似(图片来源:The Fiscal Times)
Hinton博士现在有挑衅的资格,他对自动化医学未来的预测是基于简单的原则:“深度学习可以解决海量数据的分类问题。未来会有数千种深度学习的应用程序。”他想要把学习算法应用到读各种X射线,CT和MRI的影像图片,这也是短期的应用价值。谈到未来,他表示“学习算法会用于病理诊断。”它们可能会阅读巴氏涂片,听心脏声音或预测精神病人的复发。Hinton博士说:“将来,放射科医生的角色将从完成感知事情(一只经过良好训练的鸽子也能做到),演变到完成更多的认知事情。”
我们还讨论了黑箱问题。虽然计算机科学家正在努力,但是Hinton博士承认打开黑匣子的挑战,试图了解这些强大的学习系统掌握的知识以和思考的方式极其重要。不过,他认为黑匣子是我们可以接受的一个问题。他说:“想象一下,让棒球运动员和物理学家比一比判断落球位置。棒球运动员可能不知道任何方程式,但他投掷了上百万次,所以会清楚地知道球会升多高,速度多快,以及会落到地面的什么位置。物理学家则可以通过解方程来计算相同的东西。但是,最终到达的点是完全相同的。”
我提到上一代计算机辅助检测和诊断在乳腺X照相术上的表现不佳。Hinton博士承认任何新技术都需要通过严格的临床试验进行评估。但他强调,新的智能系统设计为从错误中学习——随着时间的推移而改进。“我们内建一个系统记录每次误诊——比如一个最终得肺癌的病人记录,再把数据重新输入机器。我们可以问机器,你在这里弄错了什么?你可以优化诊断吗?如果医生诊断错误,这名患者5年后癌症发病,现行的医疗体系中很难有常规方式告诉医生如何更正。但是我们可以建一个系统来教计算机来精准地实现这一点。”
有些雄心勃勃的机器学习算法想要整合自然语言处理(读患者医疗记录)、百科全书知识、期刊文献和医学数据库。麻省剑桥的IBM沃森系统(Watson Health)和伦敦的DeepMind公司都希望创建这样一个全面的系统。我在试运行场合看过一些这样系统演示,发现其中许多功能,特别是深入学习的组件,仍在开发中。
Hinton博士对深度学习在诊断中的未来十分着迷,部分源自他的自身经历。就在开发这种算法时,他的妻子被诊断出晚期胰腺癌。他的儿子曾被诊断患有恶性黑素瘤,但最后活检确诊为基底细胞癌,一种恶性程度较低的癌症。Hinton叹息道,“还有很多东西要学习。早期、准确的诊断不是一个微不足道的问题。我们可以做得更好。为什么不让机器帮助我们?”
六、
3月一个寒冷的早上,就在和Thrun博士和Hinton博士见面几天之后,我去了位于曼哈顿第五十一街的哥伦比亚大学皮肤科诊所。主治医师Lindsey Bordone博士那天安排要看49名患者。10点钟,候诊室里坐满了人。一个大约60岁的络腮胡老人坐在角落里,用毛巾围住了脖子上的皮疹。一对焦急的夫妇挤着看《时代周刊》。
▲主治医师Lindsey Bordone博士(图片来源:columbiadoctors)
Bordone博士快速地依次查看一连串病人。在荧光灯房间的后面,有一名护士坐在电脑前,给出了一些总结性的话——“五十岁,无病史,皮肤上有新的可疑斑点”,Bordone博士听后冲进检查室,金发飞在身后。
一个30多岁的年轻人脸上出现鳞屑的红疹。Bordone博士把他拉到灯下,用手持式皮肤镜仔细地检查皮肤,剥落的皮屑从他鼻子上掉下来。
“你有头皮屑吗?”她问。
那个男人很困惑地说 “当然”。
“嗯,这是面部头皮屑,”Bordone博士告诉他。“情况比较严重。但问题是为什么现在出现,为什么会恶化。你最近使用过一些新的洗头产品吗?家里有没有不寻常的压力?
“肯定有一些压力”,他说。他最近失去了工作,财务受到影响。
“保持写日记,”她建议。“我们可以确定跟这些生活变化是否有关。”她写了一个甾体霜的处方,并要求他在一个月内复查。
隔壁的房间里,一位年轻的律师助理头皮上有一些瘙痒的疙瘩。当Bordone博士碰他头皮时,他缩了一下。她说“脂溢性皮炎”,考试结束。
另一间房间里,一位妇女脱下衣服,换上病号服。她曾患有黑色素瘤,现在积极地做预防复发的检查。Bordone博士仔细检查她的皮肤,一个个斑点地看过去。花了20分钟,但是她查得全面彻底,用手指摸过痣和皮赘,随着手指移动不断说出判断。有痣和角化病,但没有黑素瘤或癌变。“看起来都很好”,医生最后高兴的总结。女患者松了口气。
就这样:Bordone博士走进来,察看病情,给出诊断结论。她给人的感觉完全不像Hinton博士说的歪心狼,而像是那个有点狂躁的BB鸟(Roadrunner),她看一连串病人,就像设法跟上脚下的跑步机节奏。当她在后面的房间里写医嘱时,我问她怎么看Thrun博士描述的诊断愿景:iPhone图片通过电子邮件发送到功能强大的非现场网络,这个网络具有毋容置疑但难以理解的专业知识。像Bordone博士这样的全职皮肤科医生。一生中大概会看20万个病例。斯坦福机器的算法在3个月内就吸收了近13万个案例。而且,不像新的皮肤科住院医生需要从零开始接触患者,Thrun博士的算法可以一直在吸收、成长和学习。
▲医生究竟是游刃有余的BB鸟,还是接近掉落悬崖的歪心狼?(图片来源:Geek.com)
Bordone博士听了耸耸肩。她说:“如果这有助于我做出更准确的判断,我会欢迎。我的一些病人在看到我之前可以把自己的皮肤问题拍照,这样会增加诊所的覆盖面。”
这听起来像是一个医生的合理反应,我想起Thrun博士说过的那些令人安心的评论——机器只是把人的能力增强。但是,当机器越学越多,人会不会越学越少?父母长期以来都在担心:孩子的手机上有拼写检查功能,如果孩子不再去学拼写怎么办?这种现象被称为“自动化偏差”(automation bias)。自动驾驶会使人警惕性降低,医学自动化也一样。也许Bordone博士正像是蒸汽钻即将面世前孤独的John Henry先生(美国民间故事中,力量胜过了蒸汽钻,但却在比拼中由于心脏压力过大而死去的悲剧英雄)。但是,她看病时全神贯注,认真地用手指检查每一个皮赘和痣,这些都是不能漏掉的看病细节。如果她与机器合作,还会继续这样吗?
我还注意到Bordone博士与患者互动的其他模式。一方面,患者看病后几乎总是感觉更好。他们被医生触摸和仔细检查,可以和医生进行交流。甚至医生说出的“痣”,“角化病”等病变名称都像是润肤剂:这是一种深度疗愈的过程。那个有黑色素瘤病史前来复查的妇女离开医院时看起来精神很好,毫无精神负担,她的焦虑被解除了。
另一方面,像巴西研究人员可能猜到的,诊断时刻对Bordone博士来说是一种瞬间认知。当她说出“皮炎”或“湿疹”的时候,好像她正在认出犀牛:当她认出这种疾病时,几乎可以看到她大脑底部的椎体神经元在闪光。但访问并没有结束。在几乎每一个病例中,Bordone博士都花大量时间探索发病原因。为什么出现症状?是压力吗?新洗发水引起?有人改变了游泳池里的氯气吗?为什么是现在发病?
我忽然意识到,临床实践最强大的地方,不是“知道是什么”或者“知道怎么样”,既不是掌握疾病事实,也不是感知病情如何形成。而是第三个知识领域:知道为什么。
七、
解释可浅可深。手指上出现红色的水泡,是因为你摸了一块热铁。手指上出现红色水泡,是因为烫伤激发了前列腺素和细胞因子的炎症级联反应,一种我们至今仍未完全理解的调控过程。知道为什么——问为什么,是我们获得解释的途径,解释越来越多,就会推动医学进步。Hinton博士曾提到棒球运动员和物理学家的比喻。无论诊断医生是机器还是人类,他们都像是那个熟练但难懂的棒球运动员。医学研究人员则像那个物理学家,一个是临床领域的理论家,一个是棒球场的理论家,两者同样渴望知道“为什么”。这样的职责分工很简便,但会不会带来损失?
“深度学习系统不具有任何解释力”,Hinton博士坦率地说。黑匣子不能调查原因。事实上,“深度学习系统越强大,越是不透明。随着更多的特征被提取,诊断变得越来越准确。为什么这些特征会从数百万个其他特征中选出来,仍是未解之谜。”算法可以解决问题,但不能建立问题。
然而,我发现肿瘤学领域的医学进步经常是由熟练的执业医师,同时也是充满好奇和具有洞察力的研究人员推动的。事实上,在过去的几十年里,雄心勃勃的医生一直努力扮演棒球运动员和物理学家的角色:他们通过症状去了解疾病的生理学原因。为什么皮肤病变的不对称边界预示着黑素瘤?为什么一些黑素瘤会自发退化,有时会出现白色皮肤斑块?事实上,临床医生的观察最终导致了当今临床上最有效的免疫药物的发明——皮肤变白原来是免疫反应的结果,这种反应也可以治疗黑素瘤。这一串发现始于诊所。如果越来越多的临床实践被降级为越来越不透明的机器学习系统,如果隐性和显性这两种知识形式之间日常自发的亲密联系——知道是什么,知道怎么做,知道为什么——开始退化,我们会不会做得越来越娴熟,但却越来越不能重新审视应该做什么,不能在算法的黑匣子之外思考?
我和哥伦比亚皮肤科主任David Bickers博士谈过自动化的未来。他说,“我试着去读懂Thrun博士的文章,我不明白背后的数学计算,但我知道这样的算法可能会改变皮肤科的实践。皮肤科医师会不会失去工作?我不这么认为,但我认为必须努力地考虑如何将这些程序融入临床实践。我们如何为它们付款?机器作出错误的预测时该如何界定法律责任?依靠这样的算法会不会减弱临床医生的操作能力或者形象?医学领域最终会不会培养出技术人员而不是医生?”
说到这,他看了下时间,有病人在等着,他便起身离开了。“我毕生都在做诊断学家和科学家。我知道病人有多依赖我从良性病变中分辨恶性病变的能力。我也知道医学知识来自诊断。”他提醒我说,“诊断”一词来自希腊语,原意是“区分”。机器学习算法将来也只是在“区分”能力上更胜一筹——区分和辨识出痣与黑素瘤。但是,全方位认知超越了以任务为中心的算法。在医学领域,或许终极奖赏还是要靠整体认知。