您现在的位置是:首页 >要闻 > 2021-01-13 08:20:23 来源:
评估变量对不同预测模型的重要性的框架
杜克大学的两名研究人员最近设计了一种有用的方法,以研究某些变量对于提高预测模型的可靠性/准确性的重要性。他们的论文发表在《自然机器智能》上,最终可以为各种应用开发更可靠,性能更好的机器学习算法。
“大多数人选择一种预测性机器学习技术,然后研究哪些变量对其预测至关重要或与之相关,”进行这项研究的研究人员之一贾家栋告诉TechXplore。“如果有两个模型具有相似的性能却使用了完全不同的变量,那该怎么办?如果是这样,分析师可能会犯一个错误,并认为一个变量很重要,而事实上,存在一个不同的,同样好的模型完全不同的一组变量很重要。”
Dong和他的同事Cynthia Rudin介绍了一种方法,研究人员可以使用该方法来检查变量对于各种几乎最佳的预测模型的重要性。在选择最有前途的人来完成给定任务之前,可以将这种方法称为“可变重要性云”,以更好地理解机器学习模型。
术语“可变重要性云”源自这样一个想法,即可以根据可变重要性评估几种模型(即它们的整个“云”)。这些云可以帮助研究人员识别重要的变量和不重要的变量。通常,一个变量的重要性意味着另一个变量的重要性较低(即,对给定模型的预测没有太大的指导作用)。
Dong说:“在这种情况下,从具有不同重要性的角度来看,云是一组模型。” “但是让我们讨论一下如何计算它。对于几乎最佳的每个预测模型(意味着它几乎与最佳模型一样好),我们计算每个变量对该模型的重要性。然后,将该模型表示为一个变量重要性空间中的点,其位置代表其变量的重要性。这些点的集合(每个预测模型一个)被称为变量重要性云。”
Dong和Rudin设计的方法重新关注分析以确保他们不检查单个机器学习模型,而是所有好的预测模型的集合。当枚举所有好的预测模型具有挑战性或不可能时,研究人员要么使用采样技术将样本添加到云中,要么使用优化技术来描绘云的边缘。