30 KiB
Python 包:五个真正的 Python 最爱
Python 有一个由包、模块和库组成的庞大生态系统,您可以用它来创建您的应用程序。其中一些包和模块包含在您的 Python 安装中,统称为标准库。
标准库由为常见编程问题提供标准化解决方案的模块组成。它们是跨许多学科的应用程序的重要组成部分。然而,许多开发人员更喜欢使用替代包,或扩展,这可能会提高标准库中内容的可用性和有用性。
在本教程中,您将在 Real Python 见到一些作者,并了解他们喜欢用哪些包来代替标准库中更常见的包。
您将在本教程中了解的软件包有:
pudb:一个基于文本的高级可视化调试器requests:一个漂亮的 HTTP 请求 APIparse:直观、易读的文本匹配器dateutil:热门datetime库的扩展typer:直观的命令行界面解析器
首先,你将看到一个视觉上强大的pdb的替代品。
免费下载: 从 Python 技巧中获取一个示例章节:这本书用简单的例子向您展示了 Python 的最佳实践,您可以立即应用它来编写更漂亮的+Python 代码。
pudb进行可视化调试
Christopher Trudeau是 Real Python 的作者和课程创建者。在工作中,他是一名顾问,帮助组织改善他们的技术团队。在家里,他花时间玩棋类游戏和摄影。
我花了很多时间将隐藏到远程机器中,所以我不能利用大多数ide。我选择的调试器是 pudb ,它有一个基于文本的用户界面。我觉得它的界面直观易用。
Python 搭载 pdb ,其灵感来源于 gdb ,其本身的灵感来源于 dbx 。虽然pdb完成了这项工作,但它最大的优势在于它搭载了 Python。因为它是基于命令行的,所以你必须记住很多快捷键,而且一次只能看到少量的源代码。
用于调试的另一个 Python 包是pudb。它显示了整个源代码屏幕以及有用的调试信息。它还有一个额外的好处,那就是让我怀念过去我编写涡轮帕斯卡(T2)代码的日子:
该界面分为两个主要部分。左侧面板用于源代码,右侧面板用于上下文信息。右侧分为三个部分:
- 变量
- 堆
- 断点
您在调试器中需要的一切都可以在一个屏幕上找到。
与pudb 互动
可以通过 pip 安装pudb:
$ python -m pip install pudb
如果您使用的是 Python 3.7 或更高版本,那么您可以通过将PYTHONBREAKPOINT环境变量设置为pudb.set_trace来利用 breakpoint() 。如果您使用的是基于 Unix 的操作系统,比如 Linux 或 macOS,那么您可以按如下方式设置变量:
$ export PYTHONBREAKPOINT=pudb.set_trace
如果您基于 Windows,命令会有所不同:
C:\> set PYTHONBREAKPOINT=pudb.set_trace
或者,您可以将import pudb; pudb.set_trace()直接插入到代码中。
当您运行的代码遇到断点时,pudb中断执行并显示其接口:
您可以使用键盘导航和执行源代码:
| 钥匙 | 行动 |
|---|---|
Up 或 K |
将代码上移一行 |
Down 或 J |
将代码下移一行 |
Page Up 或 Ctrl + B |
向上滚动代码页 |
Page Down 或 Ctrl + F |
向下滚动代码页 |
T2N |
执行当前行 |
T2S |
如果是函数,则进入当前行 |
T2C |
继续执行到下一个断点 |
如果你重启你的代码,那么pudb会记住前一个会话的断点。 Right 和 Left 允许你在源代码和右边的控制区之间移动。
在变量框中,您可以看到当前范围内的所有变量:
默认情况下,变量的视图会被缩短,但您可以通过按 \ 来查看完整的内容。展开视图将显示元组或列表中的项目,或者显示二进制变量的完整内容。T``R在repr和type显示模式之间来回切换。
使用观察表达式和访问 REPL
当右侧的变量区域被聚焦时,您还可以添加一个观察表达式。手表可以是任何 Python 表达式。这对于在对象仍处于缩短形式时检查深藏在对象中的数据或评估变量之间的复杂关系非常有用。
**注意:**通过按 N 添加一个手表表情。由于 N 也用于执行当前代码行,所以在按键之前,必须确保屏幕的右侧区域处于焦点上。
按下 ! 可以跳出当前运行程序的 REPL。此模式还显示调试器触发之前发送到屏幕的任何输出。通过导航界面或使用快捷键,您还可以修改断点、更改您在堆栈框架中的位置以及加载其他源代码文件。
为什么pudb很牛逼
pudb界面比pdb需要更少的快捷键记忆,并且被设计成显示尽可能多的代码。它拥有在 IDEs 中发现的调试器的大部分功能,但是可以在终端中使用。由于安装这个 Python 包只需要很短的调用pip就可以了,你可以很快地把它带到任何环境中。下一次当你被困在命令行时,看看吧!
requests用于与网络互动
马丁·布鲁斯 是 Real Python 的作者和课程创建者。他在 CodingNomads 担任编程教师,在那里教授训练营和在线课程。工作之余,他喜欢航海、散步和录制随机声音。
我从标准库之外挑选的第一个 Python 包是流行的requests包。它在我的电脑上有着特殊的地位,因为它是我在系统范围内安装的唯一的外部包。所有其他软件包都存在于它们专用的虚拟环境中。
我不是唯一一个喜欢将requests作为 Python web 交互的主要工具的人:根据requests 文档,这个包每天有大约 160 万次下载*!
这个数字如此之高是因为与互联网的程序交互提供了许多可能性,无论是通过的网络 API 发布你的作品,还是通过的网络抓取获取数据。但是 Python 的标准库已经包含了urllib包来帮助完成这些任务。那么为什么要用外包呢?是什么让requests成为如此受欢迎的选择?
requests可读
requests库提供了一个开发良好的 API,它紧跟 Python 的目标,即像普通英语一样可读。开发人员在他们的口号“人类的 HTTP”中总结了这个想法
您可以使用pip在电脑上安装requests:
$ python -m pip install requests
让我们通过使用它来访问网站上的文本,来探索一下requests是如何保持可读性的。当你用你可信赖的浏览器处理这个任务时,你应该遵循以下步骤:
- 打开浏览器。
- 输入网址。
- 看网站的文字。
你如何用代码达到同样的结果?首先,您在伪代码中规划必要的步骤:
- 导入您需要的工具。
- 获取网站的数据。
- 打印网站的文本。
阐明逻辑后,您使用requests库将伪代码翻译成 Python :
>>> import requests
>>> response = requests.get("http://www.example.com")
>>> response.text
代码读起来几乎像英语,简洁明了。虽然使用标准库的urllib包构建这个基本示例并不难,但是requests即使在更复杂的场景中也能保持其简单明了、以人为中心的语法。
在下一个例子中,您将看到只用几行 Python 代码就可以完成很多事情。
requests是强大的
让我们加快游戏速度,挑战requests更复杂的任务:
- 登录您的 GitHub 帐户。
- 持久化登录信息以处理多个请求。
- 创建新的存储库。
- 创建一个包含一些内容的新文件。
- 仅当第一个请求成功时,才运行第二个请求。
挑战已接受并完成!下面的代码片段完成了上述所有任务。您需要做的就是分别用您的 GitHub 用户名和个人访问令牌替换两个字符串 "YOUR_GITHUB_USERNAME"和"YOUR_GITHUB_TOKEN"。
**注意:**到创建个人访问令牌,点击生成新令牌,选择回购范围。复制生成的令牌,并使用它与您的用户名一起进行身份验证。
阅读下面的代码片段,将其复制并保存到您自己的 Python 脚本中,填写您的凭证,并运行它以查看requests的运行情况:
import requests
session = requests.Session()
session.auth = ("YOUR_GITHUB_USERNAME", "YOUR_GITHUB_TOKEN")
payload = {
"name": "test-requests",
"description": "Created with the requests library"
}
api_url ="https://api.github.com/user/repos"
response_1 = session.post(api_url, json=payload)
if response_1:
data = {
"message": "Add README via API",
# The 'content' needs to be a base64 encoded string
# Python's standard library can help with that
# You can uncover the secret of this garbled string
# by uploading it to GitHub with this script :)
"content": "UmVxdWVzdHMgaXMgYXdlc29tZSE="
}
repo_url = response_1.json()["url"]
readme_url = f"{repo_url}/contents/README.md"
response_2 = session.put(readme_url, json=data)
else:
print(response_1.status_code, response_1.json())
html_url = response_2.json()["content"]["html_url"]
print(f"See your repo live at: {html_url}")
session.close()
运行完代码后,继续前进并导航到它最后打印出来的链接。您将看到在您的 GitHub 帐户上创建了一个新的存储库。新的存储库包含一个带有一些文本的README.md文件,所有这些都是用这个脚本生成的。
**注意:**您可能已经注意到代码只认证一次,但是仍然能够发送多个请求。这是可能的,因为requests.Session对象允许您在多个请求中保存信息。
如您所见,上面的简短代码片段完成了很多工作,并且仍然易于理解。
为什么requests很牛逼
Python 的 request库是 Python 使用最广泛的外部库之一,因为它是一个可读的、可访问的、强大的与 Web 交互的工具。要了解更多关于使用requests的可能性,请查看用 Python 制作 HTTP 请求的。
parse用于匹配字符串
盖尔阿恩 Hjelle 是 Real Python 的作者和评论家。他在挪威奥斯陆担任数据科学顾问,当他的分析涉及到地图和图像时,他特别高兴。除了键盘,盖尔·阿恩喜欢玩棋盘游戏、吊床和漫无目的地走进森林。
我喜欢正则表达式的力量。使用一个正则表达式,或者正则表达式,你可以在给定的字符串中搜索几乎任何模式。然而,强大的能力带来了巨大的复杂性!构建一个正则表达式可能需要反复试验,理解一个给定正则表达式的微妙之处可能更难。
parse 是一个库,它包含了正则表达式的大部分功能,但使用了更清晰、或许更熟悉的语法。简而言之,parse就是的 f 弦反过来。您可以使用与格式化字符串基本相同的表达式来搜索和解析字符串。让我们看看它在实践中是如何工作的!
查找匹配给定模式的字符串
您需要一些想要解析的文本。在这些例子中,我们将使用最初的 f 弦规范 PEP 498 。 pepdocs 是一个可以下载 Python 增强提案(PEP)文档文本的小工具。
从 PyPI 安装parse和pepdocs:
$ python -m pip install parse pepdocs
要开始使用,请下载 PEP 498:
>>> import pepdocs
>>> pep498 = pepdocs.get(498)
例如,使用parse你可以找到 PEP 498 的作者:
>>> import parse
>>> parse.search("Author: {}\n", pep498)
<Result ('Eric V. Smith <eric@trueblade.com>',) {}>
parse.search()搜索一个模式,在本例中是给定字符串中的任意位置"Author: {}\n"、。您也可以使用parse.parse(),它将模式匹配到完整的*字符串。类似于 f 字符串,您使用花括号({})来表示您想要解析的变量。
虽然您可以使用空的花括号,但大多数情况下,您希望在搜索模式中添加名称。你可以将 PEP 498 作者 Eric V. Smith 的姓名和电子邮件地址拆分如下:
>>> parse.search("Author: {name} <{email}>", pep498)
<Result () {'name': 'Eric V. Smith', 'email': 'eric@trueblade.com'}>
这将返回一个带有匹配信息的Result对象。您可以通过.fixed、.named和.spans访问您搜索的所有结果。您也可以使用[]来获取单个值:
>>> result = parse.search("Author: {name} <{email}>", pep498)
>>> result.named
{'name': 'Eric V. Smith', 'email': 'eric@trueblade.com'}
>>> result["name"]
'Eric V. Smith'
>>> result.spans
{'name': (95, 108), 'email': (110, 128)}
>>> pep498[110:128]
'eric@trueblade.com'
给你字符串中匹配你的模式的索引。
使用格式说明符
你可以用parse.findall()找到一个模式的所有匹配。尝试找出 PEP 498 中提到的其他 PEP:
>>> [result["num"] for result in parse.findall("PEP {num}", pep498)]
['p', 'd', '2', '2', '3', 'i', '3', 'r', ..., 't', '4', 'i', '4', '4']
嗯,看起来没什么用。pep 用数字表示。因此,您可以使用格式语法来指定您要查找的数字:
>>> [result["num"] for result in parse.findall("PEP {num:d}", pep498)]
[215, 215, 3101, 3101, 461, 414, 461]
添加:d告诉parse你正在寻找一个整数。作为奖励,结果甚至从字符串转换成数字。除了:d,你可以使用 f 字符串使用的大部分格式说明符。
您还可以使用特殊的双字符规范来解析日期:
>>> parse.search("Created: {created:tg}\n", pep498)
<Result () {'created': datetime.datetime(2015, 8, 1, 0, 0)}>
:tg查找写为日/月/年的日期。如果顺序或格式不同,您可以使用:ti和:ta,以及几个其他选项。
访问底层正则表达式
parse是建立在 Python 之上的正则表达式库, re 。每次你做一个搜索,parse会在引擎盖下构建相应的正则表达式。如果您需要多次执行相同的搜索,那么您可以使用parse.compile预先构建一次正则表达式。
以下示例打印出 PEP 498 中对其他文档引用的所有描述:
>>> references_pattern = parse.compile(".. [#] {reference}") >>> for line in pep498.splitlines():
... if result := references_pattern.parse(line):
... print(result["reference"])
...
%-formatting
str.format
[ ... ]
PEP 461 rejects bytes.format()
该循环使用 Python 3.8 和更高版本中可用的 walrus 操作符,根据提供的模板测试每一行。您可以查看编译后的模式,了解隐藏在您新发现的解析功能背后的正则表达式:
>>> references_pattern._expression
'\\.\\. \\[#\\] (?P<reference>.+?)'
最初的parse模式".. [#] {reference}",对于读和写都更简单。
为什么parse很牛逼
正则表达式显然是有用的。然而,厚书已经被用来解释正则表达式的微妙之处。是一个小型的库,提供了正则表达式的大部分功能,但是语法更加友好。
如果你比较一下".. [#] {reference}"和"\\.\\. \\[#\\] (?P<reference>.+?)",你就会明白为什么我更喜欢parse而不是正则表达式的力量。
dateutil用于处理日期和时间
布莱恩·韦伯 是 Real Python 的作者和评论者,也是机械工程的教授。当他不写 Python 或者不教书的时候,他很可能会做饭,和家人一起玩,或者去远足,如果运气好的话,三者兼而有之。
如果你曾经不得不用时间进行编程,那么你就会知道它会给你带来的错综复杂的麻烦。首先,你必须处理好时区,在任何给定的时刻,地球上两个不同的点将会有不同的时间。然后是夏令时,一年两次的事件,一个小时要么发生两次,要么根本不发生,但只在某些国家发生。
你还必须考虑闰年和闰秒,以保持人类时钟与地球绕太阳公转同步。你必须围绕千年虫和千年虫进行编程。这个清单还在继续。
**注:**如果你想继续深入这个兔子洞,那么我强烈推荐时间的问题&时区,这是一个由精彩搞笑的汤姆·斯科特制作的视频,解释了时间难以处理的一些方式。
幸运的是,Python 在标准库中包含了一个真正有用的模块,叫做 datetime 。Python 的datetime是存储和访问日期和时间信息的好方法。然而,datetime有一些地方的界面不是很好。
作为回应,Python 的 awesome 社区已经开发了几个不同的库和 API,以一种明智的方式处理日期和时间。这些有的是对内置datetime的扩展,有的是完全的替代。我最喜欢的图书馆是 dateutil 。
按照下面的例子,像这样安装dateutil:
$ python -m pip install python-dateutil
现在您已经安装了dateutil,接下来几节中的例子将向您展示它有多强大。您还将看到dateutil如何与datetime互动。
设置时区
有几个有利因素。首先,Python 文档中的推荐的是对datetime的补充,用于处理时区和夏令时:
>>> from dateutil import tz
>>> from datetime import datetime
>>> london_now = datetime.now(tz=tz.gettz("Europe/London"))
>>> london_now.tzname() # 'BST' in summer and 'GMT' in winter
'BST'
但是dateutil能做的远不止提供一个具体的tzinfo实例。这确实是幸运的,因为在 Python 3.9 之后,Python 标准库将拥有自己访问 IANA 数据库的能力。
解析日期和时间字符串
dateutil使得使用 parser 模块将字符串解析成datetime实例变得更加简单:
>>> from dateutil import parser
>>> parser.parse("Monday, May 4th at 8am") # May the 4th be with you!
datetime.datetime(2020, 5, 4, 8, 0)
注意dateutil会自动推断出这个日期的年份,即使您没有指定它!您还可以控制如何使用parser解释或添加时区,或者使用 ISO-8601 格式的日期。这给了你比在datetime更多的灵活性。
计算时差
dateutil的另一个优秀特性是它能够用 relativedelta 模块处理时间运算。您可以从一个datetime实例中增加或减去任意时间单位,或者找出两个datetime实例之间的差异:
>>> from dateutil.relativedelta import relativedelta
>>> from dateutil import parser
>>> may_4th = parser.parse("Monday, May 4th at 8:00 AM")
>>> may_4th + relativedelta(days=+1, years=+5, months=-2)
datetime.datetime(2025, 3, 5, 8, 0)
>>> release_day = parser.parse("May 25, 1977 at 8:00 AM")
>>> relativedelta(may_4th, release_day)
relativedelta(years=+42, months=+11, days=+9)
这比 datetime.timedelta 更加灵活和强大,因为您可以指定大于一天的时间间隔,例如一个月或一年。
计算重复事件
最后但并非最不重要的是,dateutil有一个强大的模块叫做 rrule ,用于根据 iCalendar RFC 计算未来的日期。假设您想要生成六月份的常规站立时间表,在星期一和星期五的上午 10:00 进行:
>>> from dateutil import rrule
>>> from dateutil import parser
>>> list(
... rrule.rrule(
... rrule.WEEKLY,
... byweekday=(rrule.MO, rrule.FR),
... dtstart=parser.parse("June 1, 2020 at 10 AM"),
... until=parser.parse("June 30, 2020"),
... )
... )
[datetime.datetime(2020, 6, 1, 10, 0), ..., datetime.datetime(2020, 6, 29, 10, 0)]
请注意,您不必知道开始或结束日期是星期一还是星期五— dateutil会为您计算出来。使用rrule的另一种方法是查找特定日期的下一次发生时间。让我们寻找下一次闰日,2 月 29 日,将发生在像 2020 年那样的星期六:
>>> list(
... rrule.rrule(
... rrule.YEARLY,
... count=1,
... byweekday=rrule.SA,
... bymonthday=29,
... bymonth=2,
... )
... )
[datetime.datetime(2048, 2, 29, 22, 5, 5)]
下一个星期六闰日将发生在 2048 年。在dateutil文档中还有一大堆例子以及一组练习可以尝试。
为什么dateutil很牛逼
你刚刚看到了dateutil的四个特性,当你处理时间时,它们让你的生活变得更轻松:
- 设置与
datetime对象兼容的时区的便捷方式 - 一种将字符串解析成日期的有用方法
- 进行时间运算的强大接口
- 一种计算重复或未来日期的绝妙方法。
下一次当你试图用时间编程而变得灰白时,试试吧!
typer用于命令行界面解析*
戴恩·希拉德 是 Python 书籍和博客作者,也是支持高等教育的非营利组织 ITHAKA 的首席 web 应用程序开发人员。在空闲时间,他什么都做,但特别喜欢烹饪、音乐、棋类游戏和交际舞。
Python 开发人员通常使用 sys模块开始命令行界面(CLI)解析。您可以阅读sys.argv来获得用户提供给脚本的参数列表:
# command.py
import sys
if __name__ == "__main__":
print(sys.argv)
脚本的名称和用户提供的任何参数都以字符串值的形式出现在sys.argv中:
$ python command.py one two three
["command.py", "one", "two", "three"]
$ python command.py 1 2 3
["command.py", "1", "2", "3"]
但是,当您向脚本中添加特性时,您可能希望以更明智的方式解析脚本的参数。您可能需要管理几种不同数据类型的参数,或者让用户更清楚地知道哪些选项是可用的。
argparse是笨重的
Python 内置的 argparse 模块帮助您创建命名参数,将用户提供的值转换为适当的数据类型,并自动为您的脚本创建帮助菜单。如果你以前没有用过argparse,那么看看如何用 argparse 在 Python 中构建命令行接口。
argparse的一大优势是,您可以用更具声明性的方式指定 CLI 的参数,减少了大量的过程性和条件性代码。
考虑下面的例子,它使用sys.argv以用户指定的次数打印用户提供的字符串,并对边缘情况进行最少的处理:
# string_echo_sys.py
import sys
USAGE = """
USAGE:
python string_echo_sys.py <string> [--times <num>]
"""
if __name__ == "__main__":
if len(sys.argv) == 1 or (len(sys.argv) == 2 and sys.argv[1] == "--help"):
sys.exit(USAGE)
elif len(sys.argv) == 2:
string = sys.argv[1] # First argument after script name
print(string)
elif len(sys.argv) == 4 and sys.argv[2] == "--times":
string = sys.argv[1] # First argument after script name
try:
times = int(sys.argv[3]) # Argument after --times
except ValueError:
sys.exit(f"Invalid value for --times! {USAGE}")
print("\n".join([string] * times))
else:
sys.exit(USAGE)
此代码为用户提供了一种查看一些关于使用脚本的有用文档的方式:
$ python string_echo_sys.py --help
USAGE:
python string_echo_sys.py <string> [--times <num>]
用户可以提供一个字符串和可选的打印该字符串的次数:
$ python string_echo_sys.py HELLO! --times 5
HELLO!
HELLO!
HELLO!
HELLO!
HELLO!
要用argparse实现类似的界面,您可以编写如下代码:
# string_echo_argparse.py
import argparse
parser = argparse.ArgumentParser(
description="Echo a string for as long as you like"
)
parser.add_argument("string", help="The string to echo")
parser.add_argument(
"--times",
help="The number of times to echo the string",
type=int,
default=1,
)
if __name__ == "__main__":
args = parser.parse_args()
print("\n".join([args.string] * args.times))
argparse代码更具描述性,argparse还提供了完整的参数解析和一个解释脚本用法的--help选项,这些都是免费的。
尽管与直接处理sys.argv相比,argparse是一个很大的改进,但它仍然迫使你考虑很多关于 CLI 解析的问题。您通常试图编写一个脚本来做一些有用的事情,所以花在 CLI 解析上的精力是浪费!
为什么typer很牛逼
typer 提供了几个与argparse相同的特性,但是使用了非常不同的开发模式。与其编写任何声明性的、程序性的或条件性的逻辑来解析用户输入,typer利用类型提示来自省你的代码并生成一个 CLI,这样你就不必花太多精力去考虑如何处理用户输入。
从 PyPI 安装typer开始:
$ python -m pip install typer
既然已经有了typer供您使用,下面是如何编写一个脚本来实现类似于argparse示例的结果:
# string_echo_typer.py
import typer
def echo(
string: str,
times: int = typer.Option(1, help="The number of times to echo the string"),
):
"""Echo a string for as long as you like"""
typer.echo("\n".join([string] * times))
if __name__ == "__main__":
typer.run(echo)
这种方法使用更少的函数行,这些行主要关注脚本的特性。脚本多次回显一个字符串的事实更加明显。
typer甚至为用户提供了为他们的 shells 生成 Tab 完成的能力,这样他们就可以更快地使用您的脚本的 CLI。
您可以查看比较 Python 命令行解析库——arg parse、Docopt,并单击看看是否有适合您的,但是我喜欢typer的简洁和强大。
结论:五个有用的 Python 包
Python 社区已经构建了如此多令人惊叹的包。在本教程中,您了解了几个有用的包,它们是 Python 标准库中常见包的替代或扩展。
在本教程中,您学习了:
- 为什么
pudb可以帮助你调试代码 requests如何改善你与网络服务器的沟通方式- 你如何使用
parse来简化你的字符串匹配 dateutil为处理日期和时间提供了什么功能- 为什么应该使用
typer来解析命令行参数
我们已经为这些包中的一些写了专门的教程和教程部分,以供进一步阅读。我们鼓励你深入研究,并在评论中与我们分享一些你最喜欢的标准库选择!
延伸阅读
这里有一些教程和视频课程,您可以查看以了解更多关于本教程中涵盖的包的信息:







