老齐教室

数据科学:丰满的理想与骨感的现实

作者:Key Terms

翻译:老齐

与本书相关的图书推荐:《数据准备和特征工程》


免责声明:本文中使用术语“数据科学家”,也包括:机器学习工程师、数据分析师、数据工程师、BI分析师等热门职位,它们可以在这里互换使用。

我期望数据科学家的潜在影响与日俱增,每个公司都应该是一个“数据公司”。

但现实并非完全如此。

我的期望从何而来?

2016年,我参加了为期12周的数据科学训练营。在这12周的训练期间,有11个项目是机器学习(ML)和人工智能(AI)方面的。此时,“机器学习”和“人工智能”在新闻中出现的次数已经创下了历史新高。特斯拉在自动驾驶汽车方面开创了新道路,甚至像通用汽车(GM)这样的老牌巨头也向一家AI公司投了10多亿美元,试图让自己跻身汽车技术的前沿。在消费层面,使用AI技术的耳机能实现自动翻译,甚至于AI击败了世界上最好的电子竞技团队。

我很希望自己的大部分时间都花在代码和数据中,从数据里面发现隐藏的模式,在生产中实施机器学习模型并对其进行优化。高管们可能会依赖我,根据我从数据中提炼出的模型制定产品路线图,我因此会受到高度重视。

然而,这些都没有发生。

在过去几年中,我担任过数据科学家、数据工程师和行业顾问。我还从数十位数据科学家和类似专业的故事中吸取了教训,积极阅读有关数据科学的文章,并在Twitter上关注了数据科学的思想领袖们。

在五花八门的表述中,我注意到了一些共同的主题。

以下是数据科学未能达到行业预期的最常见(有时是公然的)七种原因,在每个部分,我将提出一些并不非常完善的解决方案。

  1. 人们不晓得“数据科学”干什么
  2. 缺乏真正的数据科学领导者
  3. 数据科学项目不能根据规范构建
  4. 你可能是唯一的“数据人”
  5. 很难衡量你的影响力,数据并非总能产生价值
  6. 数据和基础设施存在严重的质量问题
  7. 数据科学的工作可能很不道德。

人们不晓得“数据科学”干什么

有些人认为数据科学是所有ML,AI和/或自定义算法,还有人认为就是做一些分析工作。许多数据科学家可能将大量时间花在特征提取、转换和数据加载上(简称ETL),事实是,所有这些都是可能的!

由于缺乏清晰的定义,所以找工作面试的时候,常被问到任何与数据科学相关和不相关的问题,我曾被问及AB测试、SQL分析问题、优化 SQL查询、如何在Python中编写游戏代码、Logistic回归、梯度提升树、数据结构和算法编程等问题!

某个概念如果比较泛,总会让一些人望而却步,更何况还要有一定的深度。不要灰心!期待一次令人困惑和沮丧的面试吧,因为面试的时候没有任何一个问题是为了解决实际问题的。如果你去问那些招聘经理有关细节问题、被问到的技术问题以及为什么会询问这些技术,他们同你的表现也一样。你对具体应用场景越了解,你就越能为面试准备王牌。

在工作中,你可能会被要求解决一个难题,并且参考资料很少或者根本找不到解决问题的方向。因为人们不知道数据科学的作用,所以你可能不得不涉猎软件开发、数据工程等多方面工作。如果你最终成为团队中唯一的“数据人”,可能需要在工作到来之前开始培养一批外部导师,他们可以在你进入未知水域时为你提供建议。

缺乏真正的数据科学领导者

大多数负责数据科学决策的高管都没有受过实际的数据科学理论和技术训练,相反,他们是“非数据驱动”、“即插即用”式地决策。

很少有团队拥有数据主管、数据科学经理或其他相关角色。作为一名数据科学家,不得不向专门从事产品、工程甚至其他学科的人员报告。

这些不精通数据的主管和经理通常是做出重要产品决策的人。在科技行业,自上而下的决策仍然非常普遍。你可能在会议桌上没有一个席位,或者没有得到足够的尊重来参与这些决策,你的研究可能不被重视。作为一名数据科学家,这给你带来了什么?

有这样一个例子,一位研究员花了一个多月的时间,通过定性和定量数据,研究客户中的某个特定价值。她提交了一份写得很好的、有证据支持的报告。然而,几天后,产品的主要负责人概述了团队的愿景,并提出了与研究人员的发现相反的主张。

即使你所倡导的数据科学项目获得了批准,也可能需要自己来计划和执行它,领导不太可能亲自帮助你研究和规划项目。这可能是一条非常艰难的道路,尤其是对行业中资历较浅的人来说。

3. 数据科学项目不能根据规范构建

你和同行可能对数据科学项目的潜力抱有期望,数据分析和机器学习是两种常见的项目类型。

在数据分析中,某人或你自己可能对数据有疑问,比如:有多少用户点击这个按钮;有多大比例的用户点击点击这个按钮;有多少用户根据地区或帐户类型注册了?然而,回答这些问题所需的数据可能不存在!如果数据确实存在,它可能是脏的——没有文档,很难找到,或者可能是不准确的。将这些数据用于项目中,肯定会遇到很困难!你可能会花上几个小时或几天的时间试图回答一个问题,结果却发现自己做不到。

在机器学习中,可能会要求你为消费者优化某些流程或体验,然而,有多少可能?如果有,凭经验就可以改善了!

在一个项目中,要提取新闻提要,其中包含来自一个大型社交网站的帖子——这些内容通常与用户无关。你可能已经注意到,Facebook或Twitter的新闻提要内容的排序方式,在靠近顶部的地方显示与你最相关的帖子——经过优化以使用这些内容,吸引用户点击相关内容。曾经,与我一起工作的团队被要求优化提要,然而,他们并不知道最终可以改善多少。

团队通过称为uCTR——唯一点击率的评估指标评估了优化效果,这实质上是用户点击或者评论帖子的概率。

高管们期望这种体验得到大幅改善,机器学习团队确实将指标提高了50%以上,但仅限于一小群非常投入的用户,因为他们还有别的方式提升自己在网站的使用体验。即使在ML模型实施后,大多数用户的操作体验亦如同前。

50%似乎很重要,但可能也相当微不足道,从相对变化角度看貌似很高,但仍然可能是一个很小的绝对变化。想象一下:你有10美元现金,一天后增加50%,现在有15美元现金,在绝对规模上,这仍然是一个很小的数字,只能填报一两次肚子。

由于许多机器学习项目可能无法达到团队的期望,因此大多数项目可能无法投入生产。

4. 你可能是唯一的“数据人”

企业中几乎每个团队都希望通过量化措施了解自己的进度,所有团队,无论是销售、客服、开发还是市场营销,都希望用指标和数据驱动的仪表板来衡量其有效性和进度。

大多数小微企业,很少有精通SQL、数据库、数据分析和数据可视化的员工,更缺乏分析数据、开发仪表板所必需的技能。

作为常驻数据科学家,你很容易同时被多个团队的请求淹没。准备好与这些团队进行各种沟通,如果他们的需求不属于你的实际开发序列,就要准备说“不”,我建议在项目中应用RICE优先级管理技术。

此外,您可能会很快意识到,大部分工作是重复的,虽然耗时,但“容易”。事实上,大多数分析都需要大量的时间来了解数据、清理数据并组织数据。您可能会花最少的时间做数据科学家想到的“有趣”的部分:复杂的统计、机器学习和具有实际结果的实验。

5. 很难衡量你的影响力,数据并非总能产生价值

想到两种解释本节标题的方法。

首先,数据科学家通常处于“支持”角色,大多数组织常常是依靠过去的经历和阅读过的东西,直觉地做出决策,而不是依据数据科学家的分析。如果你能找到一个不是这样的中小型组织,我会感到很震惊。一般来说,要想在商业上取得成功,必须果断,而非谨小慎微。作为组织中的数据科学家,是否在业务中占据至关重要的位置?可能不是。生意要持续下去,没有你也能生存。销售仍将进行,功能还要开发,客服依然处理各种客户问题,……。

刚开始的时候,我以为我会作为“看门人”,帮助证明商业决策的合理性,从而会被重视。然而,这种情况很少发生。DJ Patil,前白宫首席数据科学家,曾经在播客节目中指出,作为数据科学家,你应该努力找到一个在工作上非常有价值的场景!很难从外部找到这种工作,但在内部,你可以为利益相关者的决策提供证据,在这方面有所突破!

通常在公司扮演“支持”角色的另一个挑战是很难量化你的影响。一项常见的数据科学任务是帮助产品经理回答最近某些活动的问题,还可以根据你的见解发布对产品的建议。那又怎样?你如何衡量你的作品是否有影响?

很难做到,大多数人不会把价格或价值放在分析上。

你为销售团队做了数据分析,让他们避免了庞大而昂贵的新工作流程,公司从而节省了1000万美元。说实话,这样做,1000万美元就“从未花掉”,有人会珍惜这1000万美元吗?

在工作中,我建议你很好地记录你的工作,并根据员工薪资、资本投资、机会成本等因素计算分析,这些分析将在以后派上用场。

我意识到实际的分析是具有挑战性的,我说过一个数据科学经理,他和他的团队要在这方面做得比较好,必须向他人寻求帮助,以便更好地进行分析。

6. 数据和基础设施存在严重的质量问题

在数据科学书籍、在线课程和Kaggle竞赛中,所面临的问题与行业中实际存在的问题完全不同。

这些在线资源,有训练好的数据,这些数据很容易获得,有良好的文档记录,并且有良性的结构,这使你能够应用数据科学技术来回答问题。

关于实际工作中的数据质量,我经常把它比作一个被撕开的垃圾袋,里面的东西洒得满地都是,而你的伴侣要求你去找一个意外掉在里面的漂亮的耳环。从本质上说,这些数据很难找到,文档记录也很差,或者根本没有文档记录。数据也许是以非结构化格式显示,比如复杂的JSON、带有标点符号的文本、表情符号。此外,似乎有用的数据可能被证明是转移注意力的东西。

就像那句著名的谚语说的,“垃圾进,垃圾出”。如果你没有高质量的数据,你很可能不会产生一个高质量的输出来满足你的利益相关者的期望。

《数据准备和特征工程》一书专为解决现实中数据问题而作。

清理数据可能成为你的主要工作。2016年,受欢迎的、专注于机器学习的公司Crowdflower对经验丰富的数据科学家进行了一项调查,结果显示,在我们调查的数据科学家中,每5人中就有3人花在清理和整理数据上的时间最多。在很多情况下,数据科学家应该被称为数据管理员。

注意,如果将大部分时间花在数据清理上,那么用于编码、研究ML和进行分析的时间就所剩无几了。

除了脏数据之外,另一个主要的挑战是处理基础设施差的数据。想象一下,一条繁忙的高速公路上坑坑洼洼、收费站林立,交通繁忙。你的工作是在这些危险的环境中行驶,在最后提供数据结果。

你可能会遇到一个没有为所需查询进行优化的数据库,或者无法通过其历史数据来识别数据的真实来源。可能要等上几天或几周才能访问数据库,或者被糟糕的基础设施卡住,因为人们害怕改变它,害怕破坏一切!可能没有集中的数据存储,使用多种工具艰难地查找信息,也没有对过去数据科学工作结果的存储。

2012年我在Target工作的时候,员工们会提前上班——通常是在早上7点左右——以便在其他人很少的时候查询数据库。他们希望能更快地得到查询结果,然而,他们仍然常常要等几个小时才能得到结果。交通堵塞是真的!

甚至我在大型科技公司的朋友也抱怨过同样的数据基础设施和技术债务问题。一个朋友不得不在周六来上班,只是为了能够查询数据的时候快一些,减少等待时间。

想象一下,你兴冲冲地想要研究某些数据,却不得不等上几个小时!然后,假设您在SQL查询中犯了一个错误,必须重新实现它,并再次等待几个小时!这实际上是整整花费了一天的时间,甚至没有得到数据。

在实际工作中,如果你知道有这些糟糕的基础设施,尽早告诉你的经理,并详细地地记录各种问题,尝试多种方法,以及求助其他团队,来帮助解决问题!我也鼓励你学习更多的开发技能。

7. 数据工作可能很不道德。

这是我最担心的事情。我听说过收集和分析私人用户数据的不正当做法,从私人信息到在应用程序上的每一次互动,都可能被收集。作为一名数据科学家,你可能不会接受这种行为,但对有关产品的决策也没有发言权。

优步(Uber)因一款名为Greyball的秘密内部工具而臭名昭著,该工具是为逃避执法而设计的,它可以帮助识别各城市的执法官员,并为他们提供一个假的优步体验,向乘客展示,但没有人会接他们。如果你是负责预测谁是执法官员或编写核心程序算法的数据科学家,你会怎么做?你愿意做吗?

来自机器学习模型的推荐也可能不道德。我曾经参与过一个项目,根据消费者的消费习惯,用机器学习模型向消费者推荐商品,但这些预测是在建立在了一个有问题的模型训练上,所用数据中几乎没有有价值的东西。后来,付费用户抱怨这些推荐有多差,但该公司从未公开道歉。

或许有一天,一家电子商务公司会以数据科学家的身份问你:如果我们想知道一位客户是否怀孕了,即使她不想让我们知道,你能做到吗?这正是几年前在Target时对一个人说过的话!但搞清楚这一点有什么伦理意义呢?作为一个消费者,你希望你和你的家人被商家以这种方式营销吗?如果另一半不知道对方是否怀孕了怎么办?如果他们正在考虑堕胎呢?在公司,尤其是小公司,这些道德问题可能不会被考虑进去。

结论:如之奈何?

我不想阻止大家申请数据科学的工作,这些工作能够为公司贡献难以置信的价值。

相反,试着在面试中询问这些问题,以帮助你评估相应的职位。如果你在工作中已经面临这些问题,与你的经理或同事一起努力尽快解决它们,以改善你的工作。

原文链接:https://dfrieds.com/articles/data-science-reality-vs-expectations.html

搜索技术问答的公众号:老齐教室

在公众号中回复:老齐,可查看所有文章、书籍、课程。

觉得好看,就点这里👇👇👇

使用支付宝打赏
使用微信打赏

若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏

关注微信公众号,读文章、听课程,提升技能