数据科学团队中的每个角色都很重要。你需要了解这些角色以及正确发挥他们的作用,以从对数据科学家的巨额投资中获得价值,而不是为表现不佳的团队支付过多费用。
Deloitte AI Institute执行董事Beena Ammanath说:“我们不应该说‘让我们来聘请数据科学家,以及让我们来建立数据团队’,而是应该关联业务挑战,例如流程优化、成本节省、新产品线或竞争对手的业务。”
谁在数据科学团队中?
显然,数据科学家是数据科学团队的重要组成部分。很多数据科学家通常具有数据或统计学方面的高学位,并具有R或Python的编码技能,但他们还必须了解企业想要实现的目标。他们的工作往往具有探索性和迭代性。
俄罗斯数据科学咨询公司BroutonLab的首席技术官兼创始人Michael Yurushkin表示,企业想要实现的目标将确定其聘用的数据科学家的类型。
Yurushkin说:“如果你的目标是改善内容发现、广告定位、收入优化和搜索结果,则应雇用机器学习专家。如果你的目标是测试你的产品设计–使用带有最小偏差的受控实验,那么你需要专门从事实验设计和因果推断的统计人员小组。”
广告植入和许可公司Branded Entertainment Network的AI主管Tyler Folkman说,他是全栈数据科学的忠实拥护者,其中数据科学家收集自己的数据、对其进行清理、对其进行处理、建立模型、将这些模型投入生产,并确保它们为最终用户提供价值。
但是,数据科学家需要可靠的数据。这正是数据工程师的用武之地。他们建立数据管道并管理数据。
Folkman说:“数据工程师构建工具,使数据科学家能够轻松有效地全栈工作。我还没有找到开箱立即提供所需一切功能的供应商,因此让数据工程师构建自己的平台非常有价值,这个平台应整合内部工具、开源工具甚至企业工具。”
大多数专家表示,数据分析师通常是在数据分析师团队或业务部门工作,而不是数据科学团队。不管他们属于哪个部门,他们的技术水平都不及数据科学家和数据工程师,而且他们专注于数据科学的后期阶段,即分析和共享见解。
Folkman认为数据分析师和研究科学家应作为数据科学团队结构的一部分。分析师拥有数据,有助于确保数据健康,并为整个公司提供见解。研究科学家们不断提高技术水平,并投资基础研究。
BroutonLab的Yurushkin还认为需要数据战略家,他作为业务与数据科学团队之间的桥梁。他还认为那些计划建立大型数据科学团队的企业要有数据架构师。
大数据研究所董事总经理Jesse Anderson推荐三种数据团队:数据科学、数据工程和运营。他也是即将出版的《Data Teams: A Unified Management Model for Successful Data-Focused Teams》的作者。
Anderson说:“运营工程师具有专门的能力来监视和管理这些大数据系统。”
但是,当没有数据工程团队时,没有人会注意架构或代码质量问题,这会造成多年的技术负担。Anderson说,而当缺少运营团队时,企业可能会采用在生产中无法正常运行的模型和代码。
公民数据科学家的作用以及他们使用的工具
公民数据科学家是业务领域的超级用户。与真正的数据科学家不同,他们往往缺乏深厚的统计知识,不会使用R或Python进行编程,也不了解机器学习的工作原理。
增强型分析工具供应商表示,他们正在使数据科学民主化,这意味着他们将提供简单、功能强大的工具,让公民数据科学家可以用来解决相对简单的问题,例如了解为什么某个地区或某个季度销售额下降。增强分析工具使用AI和机器学习来简化数据准备和分析等任务。相比之下,数据科学家使用专家级工具来帮助解决复杂问题。
Anderson说:“公民数据科学将能够访问企业用于决策的相同数据,而无需等待支持。”
目前有两种方法可以应对公民数据科学。首先是让数据科学团队为大家建立或提供自助服务工具。另一种方法是让业务部门获取自己的工具。前一种方法可最大程度地减少工具蔓延。还可以最大程度降低风险–通过确保对数据和数据使用进行管理和保护。
Ammanath说:“如果你在此过程中处于非常领先的地位,那么在整个企业中拥有公民数据科学是至关重要的,因为你希望他们能够进行自己的数据探索。但是,如果你还处于早期阶段,那么让每个人都可使用数据可能是没有意义,因为你需要了解数据的质量和背景信息。”
数据科学家向谁报告?
数据科学团队可以向首席执行官、首席运营官、首席财务官、首席信息官、首席技术官,首席行政官、首席数据官或其他高级管理人员或副总裁报告。该团队向谁报告将影响该团队所做的工作。根据Anderson的说法,首席营销官可能过于关注产品,首席财务官可能专注于规避风险,而首席技术官或工程副总裁可能不了解数据科学与软件工程的区别。
Ammanath说,数据科学团队应该向CAO或CDO报告,因为拥有集中的数据科学职能非常重要。否则,该举措会变得狭窄而迷失。
该团队向谁报告通常取决于其组织方式。有些企业创建集中的数据科学团队。在其他公司中,业务部门雇用自己的数据科学家。对于更成熟的组织,第三个选择是将这两种结构组合成中心辐射型模型,该模型具有卓越中心,由具有特定业务领域专业知识的数据科学家或数据科学团队支持。
你需要CAO还是CDO?
CAO和CDO的角色经常被混淆。企业可能会混淆使用这两个职位头衔,而没有考虑它们之间的差异。大公司可能同时兼有这两个职位。
Anderson说:“首席分析官通常具有很高的分析背景,而首席数据官则可能具有数据工程背景,也许是数据仓库甚至是DBA(数据库管理员)背景。”
你是否应该雇用CAO还是CDO?答案是肯定的,如果你的企业足够成熟,你可以适当地支持这些职位,而且你会意识到需要这种级别的责任。大公司往往会创建该职位,他们会发现对该职位的需求很明显。