当前位置: 首页 > news >正文

如何用爬虫、机器学习识别方式屏蔽恶意广告

这是一个非常硬核的系统工程题目。要构建一个能够识别“恶意广告”(Malvertising)的系统,不能仅靠简单的黑名单(AdBlock模式),必须结合主动诱捕(Active Crawling)视觉分析(Computer Vision)和代码行为分析

恶意广告通常具有以下高阶特征,传统手段难以屏蔽:

  1. Cloaking(伪装):针对爬虫展示正常内容,针对真实用户展示恶意载荷。
  2. DOM Obfuscation(混淆):频繁变换 HTML 结构和 JS 变量名。
  3. Social Engineering UI(社会工程学 UI):伪装成系统弹窗、关闭按钮或虚假杀毒软件界面。

一、 整体系统架构设计

这是一个典型的“多模态”检测系统。我们需要同时处理视觉数据(截图)文本数据(JS代码/URL)和网络行为数据(跳转链)

决策层 (Inference)
特征层 (Feature)
采集层 (Crawl)
访问高危网站
Hook API
截屏
抓包
CNN/ResNet
AST分析 & 熵计算
Graph Embedding
特征融合
特征融合
特征融合
Score > 0.8
Ensemble 模型 (XGBoost/LightGBM)
判定恶意 & 自动生成屏蔽规则
视觉特征向量: 伪造UI/色情/诱导
代码特征: 混淆度/危险函数
网络特征: 跳转深度/域名信誉
触发广告加载
高仿真浏览器集群
数据捕获
广告视觉快照
JavaScript源码 & 重定向链

二、 核心模块一:抗检测的“诱捕”爬虫 (Anti-Cloaking Crawler)

恶意广告商会通过指纹识别(Canvas Fingerprinting、Webdriver检测)来屏蔽爬虫。我们需要使用Playwright配合stealth插件,并注入“鼠标抖动”等人类行为。

关键代码逻辑:

importasynciofromplaywright.async_apiimportasync_playwrightasyncdefcapture_malvertising(url):asyncwithasync_playwright()asp:# 1. 启动抗检测浏览器上下文browser=awaitp.chromium.launch(headless=False)# 必须有头模式以规避部分检测context=awaitbrowser.new_context(user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64)...",viewport={'width':1920,'height':1080})# 2. 注入反检测脚本 (Stealth)awaitcontext.add_init_script(path="stealth.min.js")page=awaitcontext.new_page()# 3. 监听网络请求链 (捕获重定向)redirect_chain=[]page.on("request",lambdarequest:redirect_chain.append(request.url))try:awaitpage.goto(url,wait_until="networkidle")# 4. 模拟人类行为:随机滚动鼠标,触发懒加载广告awaitpage.mouse.move(100,100)awaitpage.evaluate("window.scrollTo(0, document.body.scrollHeight/2)")# 5. 定位 iframe 广告并截图frames=page.framesfori,frameinenumerate(frames):# 简单的启发式规则:过滤掉太小的像素点,保留像广告的区域box=awaitframe.evaluate("() => document.body.getBoundingClientRect()")ifbox['width']>50andbox['height']>50:# 保存截图用于视觉分析awaitframe.screenshot(path=f"ad_frame_{i}.png")# 保存页面源码用于代码分析content=awaitframe.content()withopen(f"ad_source_{i}.html","w")asf:f.write(content)exceptExceptionase:print(f"Error:{e}")finally:awaitbrowser.close()returnredirect_chain# 运行采集# asyncio.run(capture_malvertising("http://high-risk-site.com"))

三、 核心模块二:特征工程深度解析

除了截图,最核心的是识别JavaScript 的恶意程度。恶意广告代码通常经过高度混淆(Obfuscation)。我们可以通过计算**信息熵(Shannon Entropy)**来量化代码的混乱程度。

代码特征提取逻辑:

importmathimportrefromcollectionsimportCounterdefcalculate_entropy(text):"""计算字符串的信息熵。恶意混淆代码通常熵值很高"""ifnottext:return0entropy=0length=len(text)counts=Counter(text)forcountincounts.values():probability=count/length entropy-=probability*math.log(probability,2)returnentropydefextract_code_features(js_code):features={}# 1. 信息熵特征 (混淆检测)features['entropy']=calculate_entropy(js_code)# 2. 危险函数检测 (正则匹配)# 恶意广告常用 eval, document.write 动态生成内容dangerous_patterns=[r'eval\(',r'document\.write\(',r'window\.location',r'unescape\(',r'atob\(']features['suspicious_func_count']=sum(1forpindangerous_patternsifre.search(p,js_code))# 3. 字符串特征# 查找超长字符串(通常是加密的 Payload)longest_string=max(len(s)forsinre.findall(r'"([^"]*)"',js_code))ifre.findall(r'"([^"]*)"',js_code)else0features['max_str_len']=longest_string# 4. 脚本长度features['code_length']=len(js_code)returnfeatures# 示例:一段混淆代码的熵会很高,普通代码熵较低# print(extract_code_features("eval(function(p,a,c,k,e,d)..."))

四、 核心模块三:视觉识别模型 (Fake UI Detection)

这是对抗社会工程学广告(如假装是一个系统弹窗)的关键。我们需要训练一个 CNN 模型。

  • 数据集构建

    • 正样本(恶意):带有 “Download”, “Scan Now”, “Close”, “System Warning” 样式的广告图。
    • 负样本(正常):普通的电商广告、品牌展示。
  • 模型架构思路:使用迁移学习(Transfer Learning),基于EfficientNet进行微调,因为它在速度和精度上平衡较好,适合浏览器端的推理。

PyTorch 模型定义示例:

importtorchimporttorch.nnasnnfromtorchvisionimportmodelsclassMaliciousAdNet(nn.Module):def__init__(self):super(MaliciousAdNet,self).__init__()# 使用预训练的 ResNet18 或 EfficientNetself.base_model=models.resnet18(pretrained=True)# 冻结浅层参数,只训练分类头forparaminself.base_model.parameters():param.requires_grad=False# 替换全连接层num_ftrs=self.base_model.fc.in_features self.base_model.fc=nn.Sequential(nn.Linear(num_ftrs,128),nn.ReLU(),nn.Dropout(0.5),nn.Linear(128,2)# 二分类:良性 vs 恶意)defforward(self,x):returnself.base_model(x)# 训练时,重点关注 False Positive(误报),因为屏蔽正常广告会影响用户体验。

五、 最终部署:融合推理

在实际应用中(例如浏览器插件网关),我们采用流水线过滤机制以保证性能:

  1. Level 1 (毫秒级)Bloom Filter 黑名单。检查 URL 是否在已知的恶意域名库中。
  2. Level 2 (毫秒级)轻量级代码分析。如果 JS 代码熵值过高(>5.5)且包含eval,直接标记风险。
  3. Level 3 (秒级)视觉推理。如果前两步不确定,则在后台对渲染出的 iframe 进行截图,送入 CNN 模型判断。

融合判定伪代码:

defpredict_ad_safety(url_features,code_features,image_features):# 权重分配:代码特征通常比视觉特征更可靠risk_score=(0.3*model_visual.predict(image_features)+0.5*model_code.predict(code_features)+0.2*model_network.predict(url_features))ifrisk_score>0.85:return"BLOCK"elifrisk_score>0.6:return"SUSPICIOUS_SANDBOX"# 放入沙箱隔离运行else:return"ALLOW"

总结

要真正屏蔽恶意广告,不能只盯着“广告”本身,而是要识别“攻击行为”。

  • 爬虫负责撕开伪装(Anti-Cloaking)。
  • OCR/CNN负责识破视觉欺诈(Fake UI)。
  • NLP/熵分析负责检测底层代码的恶意载荷(Obfuscated Payload)。

这套组合拳打下来,能有效拦截那些能够绕过传统 AdBlock 规则库的 0-day 恶意广告。

http://www.cnnetsun.cn/news/82389.html

相关文章:

  • Apache Mesos集群运维实战:故障恢复与版本管理完全指南
  • 探索式测试的Session管理法:提升软件测试效率与可追溯性
  • 购物省钱参考:爱创猫电商优惠券领取方式
  • 12、Red Hat Enterprise Linux硬件分析与管理指南
  • 35、Linux 内核监控与调试:NUMA、AltSysRq 及 Kdump 全解析
  • DataEase开源BI工具完整指南:从零开始的数据可视化之旅
  • Gutenberg性能优化终极指南:零成本加速WordPress编辑器
  • ag-ui与LangGraph集成终极指南:构建企业级AI工作流的完整教程
  • 2026毕设ssm+vue基于架构的校园二手物品交易论文+程序
  • 手机强制开启USB调试模式终极指南:轻松解决设备连接难题
  • DataEase开源BI工具完整安装配置指南:从零开始快速部署
  • ReClassEx终极指南:免费开源的内存逆向分析神器
  • 物联网平台前端技术重构:从技术困境到用户体验的完美蜕变
  • 动态资源池化技术:让高价值软件许可“流动”起来的关键策略
  • 24、网络服务中的 SSH 与代理服务器使用指南
  • 2025护网蓝队面试题库,参加护网看这个就够了!
  • 3步精通FLAN-T5 XL:从零到多语言AI实战指南
  • Kubernetes环境下Hadoop存储配置的7个关键问题及解决方案
  • Moonlight安卓串流:5分钟实现手机玩PC游戏的终极指南
  • 40、Postfix性能测试、故障排查及相关标准参考
  • 41、邮件服务器配置与优化全解析
  • 如何评价 Nano Banana Pro?
  • 如何快速掌握Gemma模型转换:面向开发者的终极指南
  • 前端UI框架汇总,零基础入门到精通,收藏这篇就够了
  • 前端开发者必知的AI核心概念与技术栈全解析,收藏这篇就够了
  • keyboard-layout-editor 终极指南:从零开始打造你的专属键盘
  • 3个Vim效率插件对比:让你的编辑速度翻倍
  • Accelerate分布式推理引擎技术解析:从原理到工程实践
  • 写论文软件哪个好?别试了,宏智树AI已经把“毕业级论文”标准答案写好了
  • SLAM地图持久化技术深度解析:3种创新方案解决建图数据丢失难题