老齐教室

必须升级pip,为什么?!

在《Python大学实用教程》和《跟老齐学Python:轻松入门》两本书中,都介绍了如何安装第三方库的方法:

1
pip install package-name

在用pip安装第三方库或者模块的时候,如果检测到本地的pip版本过低,会提示升级。有的人觉得升级比较麻烦,就放弃了。

本文就要重点讲一讲,为什么要必须升级pip

先说结论,如果该升级的时候不升级,结果是:可能会导致安装某些东西的时候失败;或者安装进程很慢,或者给你带来其他麻烦。

所以,如果不升级,后果很严重。

老版本的问题

下面是在Docker中运行Ubuntu 18.04,这个操作系统是2018年发布的,里面默认安装了Python3.6以及pip的9.0.1版。下面就在这个配置下进行演示。

1
2
3
4
5
6
7
[itamarst@blake dev]$ docker run -it ubuntu:18.04
root@1a43d55f0524:/# apt-get update
...
root@1a43d55f0524:/# apt-get install --no-install-recommends python3 python3-pip
...
root@1a43d55f0524:/# pip3 --version
pip 9.0.1 from /usr/lib/python3/dist-packages (python 3.6)

环境准备好之后,就安装一个名为cryptography的库,这个库是PyPI上下载量非常大的一个库,每月都有上百万的下载。

1
2
3
4
5
6
7
8
9
10
11
root@1a43d55f0524:/# pip3 install cryptography
Collecting cryptography
Downloading https://files.pythonhosted.org/packages/fa/2d/2154d8cb773064570f48ec0b60258a4522490fcb115a6c7c9423482ca993/cryptography-3.4.6.tar.gz (546kB)
100% |################################| 552kB 1.4MB/s
Complete output from command python setup.py egg_info:
Traceback (most recent call last):
File "<string>", line 1, in <module>
ModuleNotFoundError: No module named 'setuptools'

----------------------------------------
Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-6jesygn0/cryptography/

安装失败。

这里的错误说明,pip要编译cryptography,必须它要找到setuptools,但结果没找到,于是报错了。

类似的问题,也不是仅仅发生在安装上面的库,安装其他库也如此,再如:

1
2
3
4
5
6
7
8
9
10
11
root@1a43d55f0524:/# pip3 install pyarrow
Collecting pyarrow
Downloading https://files.pythonhosted.org/packages/62/d3/a482d8a4039bf931ed6388308f0cc0541d0cab46f0bbff7c897a74f1c576/pyarrow-3.0.0.tar.gz (682kB)
100% |################################| 686kB 1.1MB/s
Complete output from command python setup.py egg_info:
Traceback (most recent call last):
File "<string>", line 1, in <module>
ModuleNotFoundError: No module named 'setuptools'

----------------------------------------
Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-heq6zwd7/pyarrow/

同样的错误。

当然,如果你碰巧这样安装了:

1
2
3
4
5
6
root@1a43d55f0524:/# pip3 install filprofiler
Collecting filprofiler
Downloading https://files.pythonhosted.org/packages/e3/a2/843e7b5f1aba27effb0146c7e564e2592bfc9344a8c8ef0d55245bd47508/filprofiler-0.7.2-cp36-cp36m-manylinux1_x86_64.whl (565kB)
100% |################################| 573kB 1.8MB/s
Installing collected packages: filprofiler
Successfully installed filprofiler-0.7.2

在这里安装了filprofiler 0.7.2这是一个发布于2020年4月的比较老的filprofiler库的版本,目前(发表本文的时候)的最新版是2021年2月25日发布的0.16.0版。

这就是说,用老版本的pip安装老版本的模块或者库,是能够成功的。但是,在不指定版本的时候,模式是安装该模块或库的最新版,则会报错。

解密

安装Python的第三方库,往往需要编译由C/C++/Cython/Rust等开发的程序,为了免去从头开始编译的繁琐,开发者常常向PyPI(Python Package Index)上传已经编译好的代码,即“wheels”,俗称“轮子”,就是在上面的安装中所看到的扩展名是whl的文件。 如果pip找到了适用于你本地Python版本和操作系统的轮子,就会下载这个轮子,而不是下载源码。

以Linux为例,为了方便发布Python第三方包的编译结果程序(二进制文件),从而能让Python的“轮子”在Linux操作系统中工作,产生了一个名为manylinux的项目(https://github.com/pypa/manylinux),目前已有三个不同的版本:manylinux1、manylinux2010、manylinux2014,你可以在下载的“轮子”的文件名中看到正在使用哪个变体。例如上面安装`filprofiler 0.7.2时,所下载的“轮子”文件名是filprofiler-0.7.2-cp36-cp36m-manylinux1_x86_64.whl,这里所使用的就是manylinux1`。

对于pip来说,老版本的pip不支持manylinux2010,当然也不支持manylinux2014。上面演示中, Ubuntu 18.04默认的pip太古老了,因此它只支持manylinux1。 这就把前面安装失败的内部原因揭示出来了。

  • 如果您查看PyPI上PyArrow 3.0.0的文件下载列表,对于适用于Linux系统的文件而言,会发现只有manylinux2010manlinux2014.whl文件。那么,如果要用老版本的pip安装它,就不支持,于是乎转而寻找源代码——安装失败的演示中都显示下载.gz文件,即为源代码。在这个列表中,你会发现一个名为pyarrow-3.0.0.tar.gz的文件。
  • 如果检查filprofilerPyPI文件下载列表,会看到有manylinux2010.whl文件,但是没有源程序包,这是因为此第三方包的开发没有上传源代码。如果用老版本的pip安装,就会从可下载的文件列表中从高版本向低版本注意查找,直到发现有manylinux1.whl安装包为止。

所以,同样是用老版本的pip,有的第三方库安装失败,有的成功了。事实上,多数情况下会失败的。

所以要升级

为了能够用最新版本的第三方包,并且还不需要下载源码自己编译,最好的方法是及时升级pip

常规的操作:

1
pip install --upgrade pip

就这么简单。一般情况下,都能搞定。

如果上面的方法无能为力了,还可以这样做:

1
2
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
$ python3 get-pip.py

如果你不打算修改当前环境中的pip版本,还想用最新的,就只能创建虚拟环境了,在虚拟环境中用最新版本,不会影响其他环境中的pip版本。

1
2
3
4
5
6
7
8
9
10
11
12
root@1a43d55f0524:/# python3 -m venv myvenv
root@1a43d55f0524:/# . myvenv/bin/activate
(myvenv) root@1a43d55f0524:/# pip --version
pip 9.0.1 from /myvenv/lib/python3.6/site-packages (python 3.6)
(myvenv) root@1a43d55f0524:/# pip install --upgrade pip
Collecting pip
Using cached https://files.pythonhosted.org/packages/fe/ef/60d7ba03b5c442309ef42e7d69959f73aacccd0d86008362a681c4698e83/pip-21.0.1-py3-none-any.whl
Installing collected packages: pip
Found existing installation: pip 9.0.1
Uninstalling pip-9.0.1:
Successfully uninstalled pip-9.0.1
Successfully installed pip-21.0.1

这样,在虚拟环境中,就有了最新版本的pip,再装前面那两个没有成功的库:

1
2
3
4
5
6
7
(myvenv) root@1a43d55f0524:/# pip install cryptography filprofiler
Collecting cryptography
Downloading cryptography-3.4.6-cp36-abi3-manylinux2014_x86_64.whl (3.2 MB)
|################################| 3.2 MB 4.5 MB/s
...
Installing collected packages: pycparser, threadpoolctl, cffi, filprofiler, cryptography
Successfully installed cffi-1.14.5 cryptography-3.4.6 filprofiler-0.14.1 pycparser-2.20 threadpoolctl-2.1.0

顺利完成。

释疑

看了前面的解释,虽然明白升级pip的必要了——其实这也足够应付一般操作了,但可能还有一点点疑惑,为什么Linux系统搞出好几个manylinux的版本?一个不更好吗?为了满足好奇心,我们要从Python的扩展库编译说起,当然是以Linux系统为例。

在Linux系统中,编译好的Python的库必须基于标准C语言库,特别是GNU Libc(又名:glibc),可以用ldd指令查看:

1
2
3
4
5
6
root@1a43d55f0524:/# cd myenv/lib/python3.6/site-packages
root@1a43d55f0524:/# ldd cryptography/hazmat/bindings/_openssl.abi3.so
linux-vdso.so.1 (0x00007ffdbea7b000)
libpthread.so.0 => /lib/x86_64-linux-gnu/libpthread.so.0 (0x00007fba7b1bf000)
libc.so.6 => /lib/x86_64-linux-gnu/libc.so.6 (0x00007fba7adce000)
/lib64/ld-linux-x86-64.so.2 (0x00007fba7b7b0000)

上面列出的编译好的Python第三方库的依赖中,/lib/x86_64-linux-gnu/libc.so.6就是前面说的glibc

如果基于新版的glibc编译代码,就会用到新版的接口,老版本就不能用了,这就意味着你的代码将无法在较早版本的glibc上运行,即无法在较早的Linux发行版上运行。

这就出现了版本兼容性问题,为此不同的工具提供了不同的解决方案。比如:Conda在编译的时候将所有旧版本的glibc头文件都包含进去,用这种方式就能兼容各种Linux版本。

PyPI中的二进制“轮子”则是以在老版本的Linux上进行编译来解决此问题,这就是manylinux项目的起源。比如:

  • manylinux1对应CentOS 5
  • manylinux2010 对应于 CentOS 6
  • manylinux2014 对应于 CentOS 7

这样,在相应版本的glibc进行编译,就能与对应版本的Linux匹配了。

以上面列出的 CentOS 为例,每个版本都有各自的声明周期,对应于相应版本的操作系统,所以,就需要发布新的pip

结论

勿需多言了,结论就是:必须升级pip

否则,安装第三方库就得自己编译,那将浪费很多时间。

参考文献

[1]. Python大学实用教程. 齐伟. 北京:电子工业出版社

[2]. 跟老齐学Python:轻松入门. 齐伟. 北京:电子工业出版社

[3]. https://pythonspeed.com/articles/upgrade-pip/

[4]. https://www.itdiffer.com,此网站上有关于[1]、[2]的完整资料,包括但不限于勘误、说明、购买和部分视频等。

使用支付宝打赏
使用微信打赏

若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏

关注微信公众号,读文章、听课程,提升技能