数据工程师的烦恼,就这样一扫而光
2020-04-14
作者:玉环
作为一个常常需要与数据打交道的数据工程师,对数据经常会在爱与恨之间周而复始,最终发现正如人无完人一样,符合预期的完美数据也是少之又少,少到记忆中捞不出零星的记忆片段。
几乎无可避免的,我们会面对各种数据上的小毛病或疑难杂症,其中最典型的大家一定非常熟悉,比如:缺失值、比如异常值等,是我们经常需要填埋的坑。比如:有些数据凭经验很想利用上看看效果,但只可意会不可“数传”的属性或者概念,如何是好?
有些需要的特征被“淹没”在数据集中,如同浩瀚如烟的沧海寻找一滴水,你知道它极大概率存在,近在眼前却也远在天边,如何辨识他们?如:出生年月或大致的年龄范围,这些数据对于分析不同年龄的人群对产品的偏好非常有必要,但它们往往不会将自己打扮成你想看到的样子,端庄地出现在你面前。类似的场景,常常需要对数据进行变换或者构造。也许你会觉得没关系,都丢进模型,咱不怕不怕不怕啦,全部跑起,但在实际的需求场景里,并不会总能以高代价获得大量维度的大量数据训练的模型,反而经常会碰到很多小而精的分析需求,需要快速产出数据结论,此时通过合适处理的前期数据、特征的选用往往成为最重要的一环,成也萧何败也萧何。
即便需求紧跟业务千变万化,但是处理数据的流程和思路却万变不离其宗。机缘巧合,我在微信公众号“老齐教室”看到了数据处理及特征工程相关的公开课,因和平常工作紧密相关,于是抱着极大的兴趣听完了课程,收获颇丰。时间所限单次公开课仅阐述其中一个点,一个问题,一个场景,但抛出了多种解决方案,几乎覆盖了常用的几种方法,且能举一反三。
进而听闻老齐有本新书《数据准备和特征工程》,便有了对整本书的期待。有这么一个存在,这么一本书,将常用的数据处理、特征工程的方法论系统整理出来,置于案边以备不时之需时翻阅,自然是极好的。最惊喜的是书里有提供实验平台入口,可以执行案例中的Python脚本。
仅以此分享给正挣扎在数据中的你。
扫描下面的二维码,可以得到本书相关的资源:
本书已经由电子工业出版社出版发行,请至天猫旗舰店选购。
觉得好看,就点赞转发
若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏
关注微信公众号,读文章、听课程,提升技能