您现在的位置是:首页 >要闻 > 2020-11-19 08:36:26 来源:
机器学习发现人口健康数据中有关种族和原住民状态的缺失信息
阿尔伯塔大学研究流行病学家今天发表在《PLOS ONE》上的研究表明,机器学习可以用来填补加拿大与种族和原住民身份有关的公共卫生数据的重大空白。
北部艾伯塔省临床试验和研究中心(NACTRC)的真实世界证据部门的高级数据科学家Kai On Wong说,种族和原住民地位被认为是健康的关键社会决定因素,但在追踪急性病的大型数据库中通常没有报告以及慢性疾病,例如哮喘,流感,癌症,心血管疾病,糖尿病,残疾和精神疾病。
Wong说:“如果数据库当前缺少种族信息,我们将无法判断某些种族的疾病发生率更高还是临床结果更差,这是一种从现有数据源中解开缺失维度的方法。可能有助于我们了解,监控和解决加拿大的社会不平等和种族主义等问题。”
Wong创建了一个机器学习框架,以分析1901年人口普查中所调查的480万人的姓名和地理位置,检查拼写和语音等特征以预测他们是否属于13个种族之一。
Wong说:“不同的族裔和语言群体具有不同的特征表现形式,例如名称的发音,名称中的字母数,元音和独特的字母序列等等。” GitHub公共存储库,这是他在美国大学公共卫生学院的博士论文的一部分。
他说:“机器学习就像拥有一个被提供大量信息的特工团队。他们被指示发现并保留有用的模式来解决实际问题,例如从现有信息中预测种族。”
Wong说,该程序在仅根据名称识别中国,法国,日本和俄罗斯遗产的个人方面表现最佳,而在包括地点的情况下,原住民分类的准确性也得到了提高。
世界卫生组织和加拿大政府都承认种族和土著是健康的决定因素,同时也包括收入,教育和性别等其他因素。Wong出任西北地区政府代理地区流行病学专家后,首先对影响当地居民的医疗保健不公产生了兴趣。
Wong说,尽管美国的健康记录倾向于包含有关种族的问题,但从医院出院记录到癌症登记簿等加拿大数据库中,收集的信息并不统一。
通过使用机器学习来发现这些丢失的信息,研究人员和政策制定者将能够从现有记录中学习更多信息,而不必进行昂贵且费时的新的人口调查。
Wong说:“未来的一步将是,使用机器学习框架生成的带有种族特征的健康证据,并通过实际应用验证该研究,并将其与现有文献进行比较,特别是有关健康和社会不平等的文献。”
Wong建议首先使用最新的人口普查信息更新种族预测工具,并在应用于各种健康记录时测试其准确性。
Wong说:“期望机器学习预测始终保持100%的准确性是不现实的。” “目标是做出准确且可概括的预测,以有意义的方式识别特定问题或应用程序的基础模式。”