当前位置: 首页 > news >正文

反爬虫监控

1.背景

最近导师交给我一个任务,要我做一个反爬虫的监控,因此首先了解爬虫反爬虫。

什么是爬虫?简单来说就是利用程序假装用户访问我们的网站接口。

爬虫对我们有什么坏处?首先最基本的高频的爬虫会导致我们数据库压力暴涨,接口qps升高,正常用户访问变慢,也就是爬虫在白用我们的服务器,其次高频的爬虫会影响我们的决策数据,试想公司的数仓全部都是无意义的爬虫数据,根本无法做业务决策,更重要的是,我们网站的核心数据或者自己做好清洗的数据被爬,这些属于业务资产,决不能被白嫖。

如何反爬?反爬思路很多,总体上可以这样理解:通过行为识别出爬虫和用户,实施相应策略做对应处理,最后还需要复盘+迭代。

2.设计

反爬的重点不是如何拦住爬虫,而是如何识别爬虫。

针对如何识别,我们的重点应该是判断行为是否像正常用户,我们可以先设计最基础的条件,每小时或每天接口的访问次数大于设定阈值,我们识别为爬虫,这种设计一般只能防止一次性大量爬虫,除此之外还需要设计一些特殊规则,比如针对有些爬虫每小时都持续爬数据,我们可以识别为爬虫,或者有些接口是一起调用的,但是爬虫会只爬一个接口,我们也可以标记为爬虫。

针对识别后的处理,我们遵循的规则是宁可放过不可错杀,最好不要影响正常用户的体验,因此初期设计的阈值都明显不是正常用户的次数,其次我们还应该设计多级阈值,比如疑似阈值,封号阈值,对不同的疑爬虫做筛选,不同程度处理。

针对处理完的复盘迭代,我们应该记录每次监控日志,并接入oss,将excel存入服务器定时分析改变阈值大小或者处理力度,其次接入钉钉机器人,出现异常迅速报警可以快速处理。

3.代码逻辑

做好设计进入代码编写,这里因为初期接口太多不好处理,第一版首先挑选120个接口分好模块,建表存储接口信息,这样后续可以直接从数据库中查询实时变更的接口列表,提取每个模块下的接口列表用来动态构建sql查询数据仓库,查出来的uid就是访问次数超过阈值的uid,可以做后续日志记录和报警,这是小时级阈值判断流程。

其余是针对很多特殊规则的实现,不过大部分都是sql中做好查询即可。

4.复盘和迭代

测试sql没有问题之后还需要做好复盘和迭代,因为反爬监控不是一朝一夕工程,因此每次输出的日志应该记录下来作为参考,并且可以每天生成excel文件作为决策基础,每天根据excel的数据做封号以及阈值调整。

http://www.cnnetsun.cn/news/112271.html

相关文章:

  • HoYo.Gacha专业抽卡分析工具完全使用手册
  • FastMCP高级特性之Composition
  • 安卓手机投屏到电脑的开源软件(scrcpy)
  • 边缘计算开源项目终极指南:让物联网设备秒变智能终端
  • ForensicsTool取证工具完整安装配置指南:快速掌握电子数据取证技能
  • DeepSeek-V3 KV缓存技术:让AI对话像翻书一样流畅
  • SpringBoot进阶教程(八十八)获取图片的宽高
  • PeachPie 1.1.13 发布支持最新PHP 8.5.0
  • 电视也可以玩街机经典游戏,你的客厅,早就该变成这样了!
  • 掌握3个Mock工具,轻松玩转单元测试
  • AutoGen到Microsoft Agent Framework终极迁移指南:从零开始构建现代化AI代理系统
  • 2008-2024年地级市女性奥运冠军数据
  • 2003-2024年上市公司人工智能采纳程度数据+Stata代码
  • 问了 3 个博士,导师不说,但目前最新论文卡人的已经不是知网查重
  • CST设计:可重构超表面宽带窄带可切换吸收与多波束技术
  • ai智能搜索文献:高效精准的学术资源检索新工具与应用研究
  • 英文文献的高效检索与阅读策略研究
  • 万字长文!Agent及其主流框架终极指南(附对比图),好Agent的标准:自己想、自己干、自己复盘!
  • 打造专属问答社区,开源系统助力内容创业新风口
  • Apache Impala为啥TBDS、华为MRS弃用?为什么不能做到无缝切换平缓迁移
  • 从开发到上线:智能Agent的Docker部署全链路实践(含YAML模板)
  • 智能连接与自动化引擎的全能表单系统,重新定义数据收集与业务流程的协同
  • 如何彻底解决企业级数据流程编排难题:Apache DolphinScheduler完整指南
  • 深度学习框架生态竞争格局:从Stable Diffusion WebUI Forge看技术选型逻辑
  • better-sqlite3深度解析:Node.js数据库操作的性能革命
  • 终极AI平台wgai:零门槛构建国产化智能识别系统
  • 基于VUE的企业协同管理系统 [VUE]-计算机毕业设计源码+LW文档
  • 如何快速使用bandcamp-dl:命令行音乐下载工具的完整教程
  • 【Excel VBA 编程】第61讲:两种方法驾驭文本处理猛兽
  • 探索金领冠珍护源初的纯净世界:2025年健康奶粉新篇章