【爬虫】fake_useragent的使用、BeautifulSoup(find()和find_all())

1 fake_useragent
2 BeautifulSoup
3 Beautiful Soup库的find()和find_all()

1 fake_useragent

fake_useragent是一个Python库,用于生成随机的用户代理字符串。
用户代理是在HTTP请求中发送给服务器的一种标识,它告诉服务器发送请求的客户端的类型、版本和其他信息,通常包括浏览器类型、操作系统等。
通过使用不同的用户代理,可以模拟不同的浏览器和操作系统,从而隐藏爬虫的身份,防止被网站识别为爬虫并被封禁。

使用fake_useragent可以轻松地获取随机的用户代理,而不需要手动定义。
这使得爬虫程序可以在每次请求时都使用不同的用户代理,增加了爬取成功的机会。

下面是一个简单的示例,演示如何使用fake_useragent库:

from fake_useragent import UserAgent
import requests

# 创建一个 UserAgent 对象
ua = UserAgent()

# 使用 UserAgent 对象生成随机的用户代理字符串
user_agent = ua.random

# 构造 HTTP 请求的头部信息,包括用户代理
headers = {'User-Agent': user_agent}

# 发送 HTTP 请求
response = requests.get('https://www.baidu.com', headers=headers)

# 打印响应内容
print(response.text)

在这个示例中,首先导入了fake_useragent库和requests库。然后创建了一个UserAgent对象,使用它的random方法生成一个随机的用户代理字符串。接着构造了包含随机用户代理的请求头部信息,并使用requests库发送了一个HTTP GET请求。最后打印了响应内容。

通过这种方式,可以确保每次请求都使用不同的用户代理,提高了爬取成功的机会。

2 BeautifulSoup

Beautiful Soup 是一个用于解析HTML和XML文档的Python库,它提供了简单又强大的工具,帮助开发者从网页中提取所需信息。它可以处理不规范或不完整的HTML,能够以简单又高效的方式进行文档遍历、搜索和修改。

主要用途包括:

  1. 解析:Beautiful Soup可以将HTML或XML文档转换成一个解析树,可以遍历这棵树来获取所需的信息。

  2. 搜索:可以使用类似于CSS选择器或XPath的语法来搜索文档中符合条件的标签或标签组合。

  3. 提取:可以通过标签名、属性、CSS类名等方式来提取文档中的特定元素或信息。

  4. 修改:可以对解析树进行修改,包括添加、删除或修改标签和属性。

Beautiful Soup支持多种解析器,包括Python标准库的html.parser、lxml和html5lib。一般推荐使用lxml解析器,因为它的速度相对较快。

下面是一个简单的例子,演示了如何使用Beautiful Soup解析HTML文档:

from bs4 import BeautifulSoup

# HTML文档内容
html_doc = """
<html>
<head>
    <title>Example</title>
</head>
<body>
    <div id="content">
        <h1>Hello, World!</h1>
        <p>This is a paragraph.</p>
        <p>This is another paragraph.</p>
    </div>
</body>
</html>
"""

# 创建Beautiful Soup对象
soup = BeautifulSoup(html_doc, 'lxml')

# 获取标题
title = soup.title
print("Title:", title.text)

# 获取第一个段落
first_paragraph = soup.p
print("First Paragraph:", first_paragraph.text)

# 获取id为content的div内的所有段落
content_div = soup.find('div', id='content')
paragraphs = content_div.find_all('p')
print("All Paragraphs:")
for p in paragraphs:
    print(p.text)

这个示例中,首先使用Beautiful Soup解析了一个简单的HTML文档,然后通过不同的方式获取了标题、第一个段落和id为content的div内的所有段落,并打印出它们的文本内容。

3 Beautiful Soup库的find()和find_all()

在Python的爬虫中,find()find_all()是Beautiful Soup库中常用的两个方法,用于在HTML或XML文档中查找特定的标签或标签集合。它们的主要区别在于返回的结果集。

  1. find()

    • find()方法用于查找文档中第一个匹配给定标签的元素,并返回该元素。
    • 如果没有找到匹配的元素,则返回None
    • 适用于只需要获取第一个匹配结果的情况。
  2. find_all()

    • find_all()方法用于查找文档中所有匹配给定标签的元素,并返回这些元素的列表。
    • 如果没有找到匹配的元素,则返回一个空列表。
    • 适用于需要获取所有匹配结果的情况。

下面是一个简单的例子,演示如何在HTML文档中使用find()find_all()方法:

假设有以下HTML文档(saved as example.html):

<!DOCTYPE html>
<html>
<head>
    <title>Example</title>
</head>
<body>
    <div class="container">
        <h1>Hello, World!</h1>
        <p>This is a paragraph.</p>
        <p>This is another paragraph.</p>
    </div>
</body>
</html>

然后使用Beautiful Soup来解析这个HTML文档:

from bs4 import BeautifulSoup

# 读取HTML文件内容
with open("example.html", "r") as file:
    html_content = file.read()

# 创建Beautiful Soup对象
soup = BeautifulSoup(html_content, "html.parser")

# 使用find()方法查找第一个匹配的元素
first_paragraph = soup.find("p")
print("First Paragraph:", first_paragraph.text if first_paragraph else "Not found")

# 使用find_all()方法查找所有匹配的元素
paragraphs = soup.find_all("p")
print("All Paragraphs:")
for p in paragraphs:
    print(p.text)

输出将会是:

First Paragraph: This is a paragraph.
All Paragraphs:
This is a paragraph.
This is another paragraph.

在这个示例中,find()方法用于找到第一个<p>标签,并输出其文本内容。而find_all()方法则用于找到所有的<p>标签,并逐个输出它们的文本内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/594164.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【系统架构师】-选择题(十三)

1、在某企业的营销管理系统设计阶段&#xff0c;属性"员工"在考勤管理子系统中被称为"员工"&#xff0c;而在档案管理子系统中被称为"职工"&#xff0c;这类冲突称为&#xff08; 命名冲突&#xff09;。 同一个实体在同系统中存在不同的命名&am…

【4087】基于小程序实现的电影票订票小程序软件

作者主页&#xff1a;Java码库 主营内容&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 技术选型 【后端】&#xff1a;Java 【框架】&#xff1a;ssm 【…

局部性原理和磁盘预读

局部性原理 磁盘预读 \

Linux 基础命令、性能监控

一、Linux 基础命令 grep&#xff1a;在文件中执行关键词搜索&#xff0c;并显示匹配的结果。 -c 仅显示找到的行数 -i 忽略大小写 -n 显示行号 -v 反向选择: 仅列出没有关键词的行 (invert) -r 递归搜索文件目录 -C n 打印匹配行的前后 n 行grep login user.cpp # 在…

编译官方原版的openwrt并加入第三方软件包

最近又重新编译了最新的官方原版openwrt-2305&#xff08;2024.3.22&#xff09;&#xff0c;此处记录一下以待日后参考。 目录 1.源码下载 1.1 通过官网直接下载 1.2 映射github加速下载 1.2.1 使用github账号fork源码 1.2.2 创建gitee账号映射github openwrt 2.编译准…

cordova build android 下载gradle太慢

一、 在使用cordova run android / cordova build android 的时候 gradle在线下载 对于国内的链接地址下载太慢。 等待了很长时间之后还会报错。 默认第一次编译在线下载 gradle-7.6.1-all.zip 然后解压缩到 C:\Users\Administrator\.gradle 文件夹中,下载慢导致失败。 二…

(论文阅读-优化器)A Cost Model for SPARK SQL

目录 Abstract 1 Introduction 2 Related Work 3 Background and Spark Basics 4 Cost Model Basic Bricks 4.1 Cluster Abastraction and Cost Model Parameters 4.2 Read 4.3 Write 4.4 Shuffle Read 4.5 Broadcast 5 Modeling GPSJ Queries 5.1 Statistics and S…

【论文阅读笔记】Order Matters(AAAI 20)

个人博客地址 注&#xff1a;部分内容参考自GPT生成的内容 论文笔记&#xff1a;Order Matters&#xff08;AAAI 20&#xff09; 用于二进制代码相似性检测的语义感知神经网络 论文:《Order Matters: Semantic-Aware Neural Networks for Binary Code Similarity Detection》…

Spring Boot 整合 socket 实现简单聊天

来看一下实现的界面效果 pom.xml的maven依赖 <!-- 引入 socket --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId></dependency><!-- 引入 Fastjson &#x…

【CV-CUDA实战】使用Python+TensorRT+CVCUDA优化YOLOv8

目录 什么是CV-CUDA环境准备准备CV-CUDA静态库解压添加至变量将PyBind静态库复制到env下算子设计前处理算子 TensorRT模型加载后处理函数 完整代码输出演示为什么重新写了&#xff1f;结语 什么是CV-CUDA NVIDIA CV-CUDA™ 是一个开源项目&#xff0c;用于构建云规模人工智能 (…

【数据结构(邓俊辉)学习笔记】列表02——无序列表

文章目录 0.概述1.插入与构造1.1 插入1.1.1 前插入1.1.2后插入1.1.3 复杂度 1.2 基于复制构造1.2.1 copyNodes()1.2.2 基于复制构造1.2.3 复杂度 2.删除与析构2.1 删除2.1.1 实现2.1.2 复杂度 2.2 析构2.2.1 释放资源及清除节点2.2.2 复杂度 3.查找3.1 实现3.2 复杂度 4.唯一化…

每天五分钟深度学习:数学中常见函数中的导数

本文重点 导数是微积分学中的一个核心概念,它描述了函数在某一点附近的变化率。在物理学、工程学、经济学等众多领域中,导数都发挥着极其重要的作用。本文旨在详细介绍数学中常见函数的导数,以期为读者提供一个全面而深入的理解。 数学中常见的导数 常数函数的导数 对于常数…

Raft共识算法笔记,MIT6.824,

处理leader和follow的一个重要思路是多数投票&#xff0c;确保系统中存在奇数个服务器&#xff08;例如3台&#xff09;。进行任何操作都需要来自多数服务器的同意&#xff0c;例如3台服务器中的2台。如果没有多数同意&#xff0c;系统会等待。为什么多数投票有助于避免脑裂问题…

springboot项目 字典/枚举翻译 终极解决方案 AOP+自定义注解+递归实体字段+实体动态三级缓存+责任链+多种转换方式

目录 前言实现思路技术确定 食用方式效果使用样例项目中使用第一步 复制包第二步 实现LoadDictDatabase并将其注入容器第三步 标识需要翻译的字段第四步 标识需要翻译的方法第五步 调用需要翻译的方法 实现细节TODO 前言 字典,即在存储介质中进行存储时,为了避免业务上对其名称…

计数排序,基数排序,桶排序

目录 计数排序: 基数排序&#xff1a; 桶排序: 计数排序: 计数排序是一种非比较型整数排序算法&#xff0c;特别适用于一定范围内的整数排序。它的核心思想是使用一个额外的数组&#xff08;称为计数数组&#xff09;来计算每个值的出现次数&#xff0c;然后根据这些计数信…

[贪心] 区间选点问题

905. 区间选点 - AcWing题库 思路&#xff1a;就是将所有区间按照右端点排序&#xff0c; 然后选取一些区间的右端点 代码&#xff1a; #include <iostream> #include <algorithm> #include <vector> using namespace std; const int N 100010;typedef p…

Flask与HTTP

一、请求响应循环 “请求-响应循环”&#xff1a;客户端发出请求&#xff0c;服务器处理请求并返回响应。 Flask Web程序的工作流程&#xff1a; 当用户访问一个URL&#xff0c;浏览器便生成对应的HTTP请求&#xff0c;经由互联网发送到对应的Web服务器。Web服务器接收请求&a…

信号,信号列表,信号产生方式,信号处理方式

什么是信号 信号在我们的生活中非常常见&#xff1b;如红绿灯&#xff0c;下课铃&#xff0c;游戏团战信号&#xff0c;这些都是信号&#xff1b;信号用来提示接收信号者行动&#xff0c;但接收信号的人接收到信号会进行一系列的行为&#xff0c;完成某个动作&#xff1b;这就…

基于Java EE平台项目管理系统的设计与实现(论文 + 源码)

【免费】基于javaEE平台的项目管理系统.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89267688 基于Java EE平台项目管理系统的设计与实现 摘 要 随着社会信息化的发展&#xff0c;很多的社会管理问题也一并出现了根本性变化&#xff0c;项目公司的报表及文…

【YOLO】目标检测 YOLO框架之train.py参数含义及配置总结手册(全)

1.一直以来想写下基于YOLO开源框架的系列文章&#xff0c;该框架也是日常项目开发中常用的一款工具&#xff0c;最近刚好挤时间梳理、总结下这块儿的知识体系。 2.熟悉、梳理、总结下YOLO目标检测相关知识体系&#xff0c;之前实战配置时总是临时性检索些注释含义&#xff0c;但…