geekdoc-python-zh/docs/pythonbasics/144.md

985 B
Raw Permalink Blame History

Selenium 获取 HTML

原文: https://pythonbasics.org/selenium_get_html/

Selenium 是用于浏览器自动化的 Python 模块。 您可以使用它来抓取 html 代码该网页由什么构成超文本标记语言HTML

要获取它,首先启动 Web 浏览器并加载页面。 然后,您可以获取它。 为此,必须安装 Web 驱动程序。

获取 html

Selenium 获取 html

下面的代码启动 Firefox Web rbowser使用get()方法打开一个网页,最后使用browser.page_source存储该网页 html。

#_*_coding: utf-8_*_

from selenium import webdriver
import time

# start web browser
browser=webdriver.Firefox()

# get source code
browser.get("https://en.wikipedia.org")
html = browser.page_source
time.sleep(2)
print(html)

# close web browser
browser.close()

selenium get html

下载示例