您现在的位置是:首页 >人工智能 > 2022-07-15 17:14:09 来源:
机器学习模型可以帮助医生更有效地在患者的健康记录中查找信息
医生经常查询患者的电子健康记录以获取有助于他们做出治疗决定的信息,但这些记录的繁琐性质阻碍了这一过程。研究表明,即使医生接受过使用电子健康记录 (EHR) 的培训,平均而言,找到一个问题的答案也需要八分钟以上的时间。
医生必须花更多的时间浏览通常笨拙的 EHR 界面,他们与患者互动和提供治疗的时间就越少。
研究人员已经开始开发机器学习模型,该模型可以通过在 EHR 中自动查找医生所需的信息来简化流程。然而,训练有效的模型需要大量相关医学问题的数据集,由于隐私限制,这些数据集通常很难获得。现有模型难以生成真实的问题(人类医生会提出的问题),并且通常无法成功找到正确的答案。
为了克服这种数据短缺,麻省理工学院的研究人员与医学专家合作,研究医生在审查 EHR 时提出的问题。然后,他们构建了一个公开可用的数据集,其中包含这些医学专家撰写的 2000 多个临床相关问题。
当他们使用他们的数据集训练机器学习模型以生成临床问题时,他们发现与医学专家提出的真实问题相比,该模型在超过 60% 的情况下提出了高质量和真实的问题。
利用这个数据集,他们计划生成大量真实的医学问题,然后使用这些问题来训练机器学习模型,这将帮助医生更有效地在患者记录中找到受欢迎的信息。
“两千个问题听起来可能很多,但是当你看看现在正在训练的机器学习模型时,它们有如此多的数据,可能有数十亿个数据点。当你训练机器学习模型在医疗保健环境中工作时,你必须非常有创意,因为数据如此缺乏,”主要作者、计算机科学与人工智能实验室 (CSAIL) 的研究生 Eric Lehman 说。
资深作者是电气工程与计算机科学系 (EECS) 教授 Peter Szolovits,他是 CSAIL 临床决策小组的负责人,也是 MIT-IBM Watson AI Lab 的成员。该研究论文由麻省理工学院、MIT-IBM Watson AI 实验室、IBM Research 的合著者以及帮助提出问题并参与该研究的医生和医学专家合作完成,将在北方年度会议上发表计算语言学协会美国分会。
“真实数据对于训练与任务相关但难以找到或创建的模型至关重要,”Szolovits 说。“这项工作的价值在于仔细收集临床医生就患者病例提出的问题,从中我们能够开发出使用这些数据和通用语言模型提出进一步合理问题的方法。”
数据不足
雷曼解释说,研究人员能够找到的少数大型临床问题数据集存在许多问题。有些是由患者在网络论坛上提出的医疗问题组成,这与医生的问题相去甚远。其他数据集包含从模板生成的问题,因此它们在结构上大多相同,使得许多问题不切实际。
“收集高质量数据对于执行机器学习任务非常重要,尤其是在医疗保健领域,我们已经证明这是可以做到的,”雷曼说。
为了构建他们的数据集,麻省理工学院的研究人员在最后一年的培训中与执业医师和医学生合作。他们向这些医学专家提供了 100 多份 EHR 出院摘要,并告诉他们通读摘要并询问他们可能遇到的任何问题。为了收集自然问题,研究人员没有对问题类型或结构施加任何限制。他们还要求医学专家识别 EHR 中导致他们提出每个问题的“触发文本”。
例如,医学专家可能会阅读 EHR 中的注释,说明患者过去的病史对前列腺癌和甲状腺功能减退症具有重要意义。触发文本“前列腺癌”可能会导致专家提出诸如“诊断日期?”之类的问题。或“做过任何干预吗?”
他们发现大多数问题都集中在症状、治疗或患者的测试结果上。雷曼说,虽然这些发现并不出人意料,但量化每个广泛主题的问题数量将有助于他们建立一个有效的数据集,用于真实的临床环境。
一旦他们编译了他们的问题数据集和随附的触发文本,他们就使用它来训练机器学习模型以根据触发文本提出新问题。
然后,医学专家使用四个指标确定这些问题是否“好”:可理解性(这个问题对人类医生有意义吗?)、琐碎性(问题是否太容易从触发文本中回答?)、医学相关性(是否根据上下文问这个问题有意义吗?),以及与触发器的相关性(触发器与问题相关吗?)。
值得关注
研究人员发现,当一个模型被赋予触发文本时,它能够在 63% 的时间内产生一个好问题,而人类医生在 80% 的时间里会提出一个好问题。
他们还使用他们在项目开始时发现的公开数据集训练模型以恢复临床问题的答案。然后他们测试了这些训练有素的模型,看看他们是否能找到人类医学专家提出的“好”问题的答案。
这些模型只能恢复大约 25% 的医生提出的问题的答案。
“这个结果确实令人担忧。人们认为表现良好的模型实际上很糟糕,因为他们测试的评估问题一开始就不好,”雷曼说。
该团队现在正在将这项工作应用于他们的最初目标:建立一个可以自动回答 EHR 中医生问题的模型。下一步,他们将使用他们的数据集来训练一个机器学习模型,该模型可以自动生成数千或数百万个良好的临床问题,然后可以用来训练一个用于自动问答的新模型。
虽然在该模型成为现实之前还有很多工作要做,但 Lehman 对团队使用该数据集展示的强大初步结果感到鼓舞。