当前位置: 首页 > news >正文

爬取某网站的小说名(pyquery)

这个代码短且简单,主要就是展示一下pyquery的用法

代码就这么长,连三十行都不到,虽然简单,但我还是巨详细的说说

一、发送请求

第一步依然是发送请求,但在发送请求之前,我们爬取的这个小说网站有好多页小说,所以限制一下,就爬取前5页的,于是就需要for循环,就是下面这句

for i inrange(1, 6): url = f"https://b.faloo.com/y_0_0_0_0_6_1_{i}.html"

接着那句时伪装头,这句伪装头也可以放在for循环外边,主要是把python解释器伪装成浏览器,然后发送请求,不然服务器那边识别到你是python解释器发送的请求,就不给你响应,下面这句就是发送请求

response= requests.get(url,headers=headers)

,然后获得响应(response),话是这样说的,但你发送请求后,人家服务器那边到底有没有给你响应,你是不是需要验证一下,就是下面这句

if response.status_code==200:

二、解析网页

如果服务器那边给你回应了,那状态码就是200,接着就可以拿这pyquer对响应的HTML进行解析

html =pq(response.text)

三、定位

解析后就可以,对小说名称的位置进行定位,就是下面这句

items= html("div > div > div> h1").items()

依旧用的是CSS选择器,后面的items()方法时让items,变成一个可迭代对象,方便后面获取文档

四、获取内容并输出

foritem in items: # 小说名print(item.text())

既然上面已经说到items已经变成可迭代对象,那就进行遍历,遍历后的内容还不是需要的文档,还是HTML,需要用到text()方法,获取文档,然后输出,就行了

五、结果展示

当然五页的内容不止这些,这只是截了一部分

http://www.cnnetsun.cn/news/26509.html

相关文章:

  • yadm 完整使用指南:从入门到精通掌握点文件管理
  • 基于Web的大学生体测管理系统设计与实现中期(1)
  • 代码随想录算法训练营第四十三天 | 98. 所有可达路径
  • GBase 8a数据库集群硬件部署安装建议
  • GBase数据库护航国家管网SCADA系统四年无中断平稳运行
  • 一文搞定 AI 智能体架构设计的9大核心技术
  • 计算机毕业设计springboot基于JAVA的校园图书馆管理系统的设计与实现 基于Spring Boot框架的校园图书馆信息化管理系统开发与应用研究 利用Spring Boot与Java技术构建的高
  • 数据结构==LRU Cache ==
  • AMD ROCm平台上的YOLOv8目标检测:从入门到精通的5步优化指南
  • 如何让GPT-5.2成为你职场上的得力助手?这5大功能必看!
  • 如何快速掌握YOLOv12:实时目标检测的完整实践指南
  • PINNs-Torch:用PyTorch轻松实现物理信息神经网络
  • JavaScript学习笔记:5.函数
  • Apache Kvrocks数据库部署实战:从零到一的完整搭建教程
  • 16、远程系统管理与安全防护指南
  • 施耐德BMENOC0321C:高性能模块化驱动控制器(增强通信版)
  • 金融人转AI:从入门到上手,我的“证书认证+技能”学习路线分享
  • 模块化多电平变换器MMC(20子模块、21电平,工作条件220kV(AC)/400kV(DC)...
  • 生态共舞!恭喜10家企业荣获“2025龙蜥社区最佳联合解决方案奖”
  • Java常见开发框架大比拼:Jeesite 、jeecgBoot、smartAdmin、ruoyi
  • IDEA(2020版)实现HttpServletRequest对象
  • 跨平台开发框架选型指南:Uniapp、React Native、Flutter
  • 数字孪生软件开发公司
  • springboot基于vue的校园报修管理系统设计与实现_t45k51ip
  • 嵌入式彩屏单色字体点阵的存储结构设计
  • 《Medical Vision Generalist: Unifying Medical Imaging Tasks in Context》(医学视觉通才:在上下文中统一医学成像任务)的
  • 西安电子科技大学专属信纸模板:3分钟打造专业学术形象
  • 【每日一题】PCIe答疑 - 接大量 GPU 时主板不认设备或无法启动和MMIO的可能关系?
  • 富有的哈佛人 —— 储蓄:财富积累的第一块基石
  • 终极指南:快速掌握eventpp事件处理库的8种集成方法