您现在的位置是:首页 >要闻 > 2020-11-30 15:12:57 来源:
教授提出了开发通用数据科学方法的指南
从工程和科学到人文和社会科学,在各个校区的研究中,数据科学工具的使用已激增。但是,没有既定的数据科学学科,也没有公认的方法可用于各个学术领域,以发展公认的数据科学过程并将其整合到研究中。
伊利诺伊大学厄本那-香槟分校信息科学教授维多利亚·斯托登(Victoria Stodden)提出了一个框架,以指导数据科学领域的研究人员和课程开发,以及协助政策和资助决策。她在ACM通讯杂志中概述了该方法。
Stodden研究研究结果的可重复性问题已有十多年了。现在,计算工具在研究中的广泛使用引发了有关透明度,偏见,道德和其他主题的讨论。她说,这些想法比任何特定领域都广泛,来自不同领域的研究人员需要一个共同的框架来了解和讨论它们。
斯托登说,她的方法将有助于将数据科学本身定义为一门科学学科。提供一种跨各种学科进行共同对话的方式;鼓励研究人员和科学家的发展,并就数据驱动的研究方法进行培训;帮助他们就新兴的数据科学领域的最重要问题达成共识;并帮助计算研究的消费者了解结果是如何产生的。
Stodden说:“我希望这是一种统一现在正在进行的对话的方法,以帮助他们发展和分享知识,从而利用并学习其他人的做法,并讨论不同学科之间正在发生的事情。” 。
她说,该框架有助于确定哪些问题可以在各个学科之间推广,哪些是学科特定的。
Stodden的建议建立在数据生命周期的概念上,信息科学家使用该生命周期来描述数据集的各个阶段。她的数据科学生命周期不仅关注数据集,还关注计算研究工具,例如计算机代码和软件,以及研究结果。
她说,数据科学生命周期将使研究人员能够研究从数据收集到分析,验证,传播的计算研究过程,以及最终研究结果如何用于公共讨论中。它将使对话的概念包括透明度,结果的可重复性,结果的解释方式,潜在的偏见和道德规范。
Stodden说:“这是一个框架,用于将所有这些不同的主题放在一起,并思考拥有数据科学领域的意义。” “通过对数据科学的意义以及利用这些工具的意义进行更具战略性的思考,我们将做出更好的科学。”
数据科学生命周期认识到需要保留数据,软件和计算信息,并在结果发布后使其广泛可用,从而实现可重复性。
她说,她的方法还将帮助指导数据科学课程的发展,提供一种查看现有课程适合的位置以及可能需要开发新课程的方式。
“对于寻求在数据科学领域进修高级课程的学生来说,似乎统计数据不够计算,计算机科学对数据推理的关注不够,信息科学过于广泛,而领域科学并未提供广泛的知识。足够的数据科学教学议程,”她写道。