《数据准备和特征工程》勘误与修订
2020-04-07
2020年3月第1版第1次印刷
勘误
前言
- 位置:第1自然段,第2行
- 原文:另外,数据科学业界中还流传着另一句话:
- 修改为:
另外,数据科学业界中还流传着另一句话: - 说明:去掉原文中的“另外”和“中”
第003页
- 位置:正文,第5自然段,第5行
- 原文:各环节之间不仅前后衔接,而且还可能循环往复。
- 修改为:各环节之间不仅前后衔接,
而且还可能循环往复。 - 说明:去掉原文中的“而且”。
第014页
- 位置:正文,第3自然段。
- 原文:⑫的作用是……。注意,这一句必须在且只能在代码块的第1行。
- 修改为:⑫的作用是……。
注意,这一句必须在且只能在代码块的第1行。 - 说明:删除“注意……”这一句。
第015页
- 位置:正文,倒数第1段,倒数第1行
- 原文:⑰是惰性操作,……,直到执行后续操作。
- 修改为:
⑰是惰性操作,……,直到执行后续操作。 - 说明:原文所示的那一句删除。
第038页
- 位置:代码段,In[9],第2行
- 原文:
tdatas.to_csv("./chapter01/movies.csv")
- 修改为:
datas.to_csv("./chapter01/movies.csv")
- 说明:原文中,在
datas
前面的字母 t 应该去掉
第042页
- 位置:动手练习,第1题,整个题目进行修改。
- 修改为:在网上找到一个可用于读取数据的API,练习通过API读取数据。
- 说明:原文中的题目,因为API失效,不能使用,所以将题目内容更改。
修订
第009页
说明:在正文倒数第1段之前,即“下面就使用这个函数读取Excel文件的数据”此段落之前,插入如下内容
为了顺利使用
pd.read_excel
函数,先安装两个操作Excel文件常用的第三方包:xlrd、openpyxl。
第029页
- 说明:在第一段代码之后,在“建议读者在上述基础上,……”这段之前,增加下述内容。
利用read_sql_query函数,能够对数据库表直接使用SQL语句。此外,Pandas中还有一个名为read_sql的函数,它是对函数read_sql_query和read_sql_table的高级封装,用这个函数能够从指定数据库文件中读取数据。
为了使用这个函数,必须安装SQLAlchemy模块。
1 | pip install sqlalchemy |
在演示读取数据之前,先创建一个SQLite的数据库文件(SQLite数据库是Python默认支持的,Python中有相应的标准库sqlite3)。
1 | from sqlalchemy import create_engine |
创建名称为data.db的SQLite数据库,并用变量engine引用此数据库对象。
1 | import pandas as pd |
从CSV文件中的读取数据,然后执行to_sql方法,将数据保存到前面创建的数据库中,并将相应的数据库表命名为diadata.db。
执行完上述操作之后,在本地就可以看到名为data.db的数据库文件,如果用可视化工具打开这个数据库,可以查看到里面的内容(如下图所示,相关操作方法请参阅《Python大学实用教程》)。
接下来,就可以使用Pandas的read_sql函数从这个数据库中读取数据库表diadata.db中的数据了。
1 | df = pd.read_sql('diadata.db', con=engine, index_col='ID') |
输出:
1 | RANK CITY_ID CITY_NAME Exposed days |
赏
使用支付宝打赏
使用微信打赏
若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏
关注微信公众号,读文章、听课程,提升技能