最新消息:雨落星辰是一个专注网站SEO优化、网站SEO诊断、搜索引擎研究、网络营销推广、网站策划运营及站长类的自媒体原创博客

requests使用re爬取腾讯体育新闻

网站源码admin26浏览0评论

简介

爬取新闻标题

1. 安装

pip install request
pip install fake_useragent

2. 演示

  1. 进入网址,查看网页源代码

  2. 找到标题界面,根据li标签的特征使用re匹配

  3. 代码演示

import requests
from fake_useragent import UserAgent # 伪装请求头的库
import re

url = 'http://sports.qq/'   # 腾讯体育新闻网址
headers = {'User-Agent': UserAgent().chrome} 

response = requests.get(url, headers)
pattern = r'<li><a target="_blank" href="(.*?)" class="(.*?)">(.*?)</a></li>'
s = re.findall(pattern=pattern, string=response.text)

for content in s:
    print(content[2])

print('--------完成-------')
  1. 结果
发布评论

评论列表(0)

  1. 暂无评论