PyQuery
是一个基于 jQuery
的库,用于解析 HTML 文档。它提供了类似于 jQuery
的语法和方法,可以方便地进行 HTML 文档的解析和操作。以下是使用 PyQuery
模块解析 HTML 的基本示例:
安装 PyQuery
模块:
pip install pyquery
使用 PyQuery
解析 HTML:
from pyquery import PyQuery as pq
# 从字符串中解析 HTML
html = '''
<html>
<body>
<h1>Hello, World!</h1>
<ul>
<li>Item 1</li>
<li>Item 2</li>
<li>Item 3</li>
</ul>
</body>
</html>
'''
doc = pq(html)
# 使用 CSS 选择器获取元素
h1_text = doc('h1').text()
li_texts = [li.text() for li in doc('li')]
# 输出结果
print(f'h1 text: {h1_text}')
print(f'li texts: {li_texts}')
使用 URL 解析 HTML:
from pyquery import PyQuery as pq
url = 'https://example.com'
doc = pq(url=url)
# 使用 CSS 选择器获取元素
h1_text = doc('h1').text()
li_texts = [li.text() for li in doc('li')]
# 输出结果
print(f'h1 text: {h1_text}')
print(f'li texts: {li_texts}')
以上示例演示了如何使用 PyQuery
解析 HTML 文档,通过 CSS 选择器获取元素,并进行相应的操作和提取内容。你可以根据具体需要,使用 PyQuery
的丰富功能进行更复杂的 HTML 解析和操作。请注意,PyQuery
也提供了类似于 jQuery
的方法(如 find()
、text()
、attr()
等),可以进一步扩展你的解析和操作能力。