必须升级pip,为什么?!
2021-02-27
在《Python大学实用教程》和《跟老齐学Python:轻松入门》两本书中,都介绍了如何安装第三方库的方法:
1 | pip install package-name |
在用pip
安装第三方库或者模块的时候,如果检测到本地的pip
版本过低,会提示升级。有的人觉得升级比较麻烦,就放弃了。
本文就要重点讲一讲,为什么要必须升级pip
。
先说结论,如果该升级的时候不升级,结果是:可能会导致安装某些东西的时候失败;或者安装进程很慢,或者给你带来其他麻烦。
所以,如果不升级,后果很严重。
老版本的问题
下面是在Docker中运行Ubuntu 18.04,这个操作系统是2018年发布的,里面默认安装了Python3.6以及pip
的9.0.1版。下面就在这个配置下进行演示。
1 | [itamarst@blake dev]$ docker run -it ubuntu:18.04 |
环境准备好之后,就安装一个名为cryptography
的库,这个库是PyPI上下载量非常大的一个库,每月都有上百万的下载。
1 | root@1a43d55f0524:/# pip3 install cryptography |
安装失败。
这里的错误说明,pip
要编译cryptography
,必须它要找到setuptools
,但结果没找到,于是报错了。
类似的问题,也不是仅仅发生在安装上面的库,安装其他库也如此,再如:
1 | root@1a43d55f0524:/# pip3 install pyarrow |
同样的错误。
当然,如果你碰巧这样安装了:
1 | root@1a43d55f0524:/# pip3 install filprofiler |
在这里安装了filprofiler 0.7.2
这是一个发布于2020年4月的比较老的filprofiler
库的版本,目前(发表本文的时候)的最新版是2021年2月25日发布的0.16.0版。
这就是说,用老版本的pip
安装老版本的模块或者库,是能够成功的。但是,在不指定版本的时候,模式是安装该模块或库的最新版,则会报错。
解密
安装Python的第三方库,往往需要编译由C/C++/Cython/Rust等开发的程序,为了免去从头开始编译的繁琐,开发者常常向PyPI(Python Package Index)上传已经编译好的代码,即“wheels”,俗称“轮子”,就是在上面的安装中所看到的扩展名是whl
的文件。 如果pip
找到了适用于你本地Python版本和操作系统的轮子,就会下载这个轮子,而不是下载源码。
以Linux为例,为了方便发布Python第三方包的编译结果程序(二进制文件),从而能让Python的“轮子”在Linux操作系统中工作,产生了一个名为manylinux的项目(https://github.com/pypa/manylinux),目前已有三个不同的版本:manylinux1、manylinux2010、manylinux2014,你可以在下载的“轮子”的文件名中看到正在使用哪个变体。例如上面安装`filprofiler 0.7.2时,所下载的“轮子”文件名是
filprofiler-0.7.2-cp36-cp36m-manylinux1_x86_64.whl,这里所使用的就是
manylinux1`。
对于pip
来说,老版本的pip
不支持manylinux2010
,当然也不支持manylinux2014
。上面演示中, Ubuntu 18.04默认的pip
太古老了,因此它只支持manylinux1
。 这就把前面安装失败的内部原因揭示出来了。
- 如果您查看PyPI上PyArrow 3.0.0的文件下载列表,对于适用于Linux系统的文件而言,会发现只有
manylinux2010
和manlinux2014
的.whl
文件。那么,如果要用老版本的pip
安装它,就不支持,于是乎转而寻找源代码——安装失败的演示中都显示下载.gz
文件,即为源代码。在这个列表中,你会发现一个名为pyarrow-3.0.0.tar.gz
的文件。 - 如果检查
filprofiler
PyPI文件下载列表,会看到有manylinux2010
的.whl
文件,但是没有源程序包,这是因为此第三方包的开发没有上传源代码。如果用老版本的pip
安装,就会从可下载的文件列表中从高版本向低版本注意查找,直到发现有manylinux1
的.whl
安装包为止。
所以,同样是用老版本的pip
,有的第三方库安装失败,有的成功了。事实上,多数情况下会失败的。
所以要升级
为了能够用最新版本的第三方包,并且还不需要下载源码自己编译,最好的方法是及时升级pip
。
常规的操作:
1 | pip install --upgrade pip |
就这么简单。一般情况下,都能搞定。
如果上面的方法无能为力了,还可以这样做:
1 | curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py |
如果你不打算修改当前环境中的pip
版本,还想用最新的,就只能创建虚拟环境了,在虚拟环境中用最新版本,不会影响其他环境中的pip
版本。
1 | root@1a43d55f0524:/# python3 -m venv myvenv |
这样,在虚拟环境中,就有了最新版本的pip
,再装前面那两个没有成功的库:
1 | (myvenv) root@1a43d55f0524:/# pip install cryptography filprofiler |
顺利完成。
释疑
看了前面的解释,虽然明白升级pip
的必要了——其实这也足够应付一般操作了,但可能还有一点点疑惑,为什么Linux系统搞出好几个manylinux
的版本?一个不更好吗?为了满足好奇心,我们要从Python的扩展库编译说起,当然是以Linux系统为例。
在Linux系统中,编译好的Python的库必须基于标准C语言库,特别是GNU Libc(又名:glibc),可以用ldd
指令查看:
1 | root@1a43d55f0524:/# cd myenv/lib/python3.6/site-packages |
上面列出的编译好的Python第三方库的依赖中,/lib/x86_64-linux-gnu/libc.so.6
就是前面说的glibc
。
如果基于新版的glibc编译代码,就会用到新版的接口,老版本就不能用了,这就意味着你的代码将无法在较早版本的glibc上运行,即无法在较早的Linux发行版上运行。
这就出现了版本兼容性问题,为此不同的工具提供了不同的解决方案。比如:Conda在编译的时候将所有旧版本的glibc头文件都包含进去,用这种方式就能兼容各种Linux版本。
PyPI中的二进制“轮子”则是以在老版本的Linux上进行编译来解决此问题,这就是manylinux
项目的起源。比如:
- manylinux1对应CentOS 5
- manylinux2010 对应于 CentOS 6
- manylinux2014 对应于 CentOS 7
这样,在相应版本的glibc
进行编译,就能与对应版本的Linux匹配了。
以上面列出的 CentOS 为例,每个版本都有各自的声明周期,对应于相应版本的操作系统,所以,就需要发布新的pip
。
结论
勿需多言了,结论就是:必须升级pip
。
否则,安装第三方库就得自己编译,那将浪费很多时间。
参考文献
[1]. Python大学实用教程. 齐伟. 北京:电子工业出版社
[2]. 跟老齐学Python:轻松入门. 齐伟. 北京:电子工业出版社
[3]. https://pythonspeed.com/articles/upgrade-pip/
[4]. https://www.itdiffer.com,此网站上有关于[1]、[2]的完整资料,包括但不限于勘误、说明、购买和部分视频等。
若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏
关注微信公众号,读文章、听课程,提升技能