您现在的位置是:首页 >财经 > 2021-04-10 20:07:13 来源:
IBM如何建立一个有效的数据科学团队
数据科学是一项团队运动。这种情绪不仅体现在我们在IBM内部的经验,也体现在我们的企业客户身上,他们经常向我们询问如何在他们自己的组织内构建数据科学团队的建议。
然而,在此之前,重要的是要记住,执行数据科学项目所需的各种技能既稀有又独特。这意味着我们需要确保每个团队成员都能专注于他或她最擅长的事情。
虽然每个角色肯定都是不同的,但每个团队成员确实需要具备T形技能 - 这意味着他们需要在自己的角色中拥有深度,同时还要粗略地理解相邻角色。
让我们从图表中更深入地探索每个角色。
产品所有者
产品所有者是主题专家,对特定的业务部门及其关注点有深刻的理解。在某些情况下,产品所有者的主要角色将是业务方面,而他们定期与数据科学团队合作,在回到更广泛的角色之前解决特定的数据科学问题或一系列问题。
实际上,循环回到正常角色对数据科学团队是有益的。这意味着产品所有者充当模型的最终用户,可以提供具体的反馈和请求。这也意味着产品所有者可以从业务部门内部倡导数据科学。
产品所有者通常负责:
定义业务问题并与数据科学家合作以定义工作假设
帮助根据需要定位数据和数据管理员
经纪和解决数据质量问题
数据工程师
数据工程师是将所有数据移动到重心并通过服务和消息队列连接数据的向导。他们还构建API以使数据通常可供企业使用,并且他们负责将数据设计到最适合团队需求的平台上。有了数据工程师,我们会寻找以下三大技能:
精通以下至少三项:Python,Scala,Java,Ruby,SQL
精通消费和构建REST API
精通将预测和规范模型集成到应用程序和流程中
数据科学家
数据科学家倾向于填补两个不同角色中的一个:机器学习工程师和决策优化工程师。由于市场条件已经导致“数据科学家”成为如此热门的角色,因此做出这种区分可以消除一些令人困惑的摆动空间。(关于我们的详细想法,请参阅我们最近关于VentureBeat的文章。)
机器学习工程师
机器学习工程师构建机器学习模型,这意味着识别每个模型中使用的重要数据元素和特征。他们确定使用哪种类型的模型,并测试这些模型的准确性和精确度。他们还负责模型的长期监控和维护。他们需要这三项技能:
应用概率和统计数据的培训和经验
具有数据建模和评估经验,并深入了解有监督和无监督的机器学习
体验至少以下两种方案的编程:Python,R,Scala,Julia或Java,优先考虑Python专业知识
决策优化工程师
决策优化工程技能和经验与机器学习工程师重叠,但差异很重要。决策优化工程师需要以下三大技能:
将数学建模和/或约束规划应用于一系列行业问题的经验
熟练掌握Python的编程技巧,并能够将预测模型作为决策优化问题的输入
体验蒙特卡罗模拟/优化以进行假设情景分析
数据记者
这就把我们带到了数据记者,他们帮助代表模型输出的团队成员在驱动它的数据的背景下,谁可以清楚地表达手头的业务问题。有了数据记者,我们会寻找以下三大技能:
Python,Java或Scala中的编码技巧
在业务问题的上下文中集成数据以及预测和规范模型的输出
熟练掌握数据解析,抓取和争吵
如果你能够聚集一个拥有这些基本技能的团队 - 如果你能确保他们能够很好地协作并保持对彼此工作的有意义的理解 - 那么你将会很好地发现可以增强任何组织的洞察力和理解力'领先。
没有他们,你可能会失明。
Seth Dobrin是IBM Analytics的副总裁兼首席数据官。