热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

如何高效率的爬取网站内的邮箱地址

因为一些需求,不得不爬取一些网站内的邮箱地址。目前准备的是两个方案

因为一些需求,不得不爬取一些网站内的邮箱地址。
目前准备的是两个方案



1.写个爬虫把别人的网站从头到尾跑一遍。然后每个页面正则出所有邮箱。
这个方法太暴力。也有诸多限制,与较低的效率

2.使用谷歌: 相关关键词 "@gmail.com" site:目标网站
这个可能更合适,但是我没办法在谷歌中使用通配符查询?
如果改成 相关关键词 "@*" site:目标网站,这样的搜索似乎忽视了@



我的问题是,
1.是否有更加简单高效,也减少网站负担的方式获取网站内的邮箱?
2.谷歌是否能使用通配符查询带有邮箱的记录?如果能我该如何写?一句看过谷歌的帮助文件,但是提供的类似数值范围和与或非之类的判断。并没有需要的通配符。

请各位大神指点


   



推荐阅读
  • 帝国cms各数据表有什么用
    CMS教程|帝国CMS帝国cmsCMS教程-帝国CMS精易编程助手源码,ubuntu桥接设置,500错误是tomcat吗,爬虫c原理,php会话包括什么,营销seo关键词优化一般多 ... [详细]
  • 解决MySQL Administrator 登录失败问题
    本文提供了解决在使用MySQL Administrator时遇到的登录错误的方法,包括启动变量和服务部分禁用的问题。同时,文章还介绍了通过安全配置模式来解决问题的具体步骤。 ... [详细]
  • 关于python中的字符串,python里面字符串 ... [详细]
  • 使用PHP与织梦正则表达式提取顶级域名
    本文介绍如何利用PHP和织梦CMS中的正则表达式功能来高效地提取URL中的顶级域名。文章不仅提供了代码示例,还讨论了相关的技术细节。 ... [详细]
  • BeautifulSoup4 是一个功能强大的HTML和XML解析库,它能够帮助开发者轻松地从网页中提取信息。本文将介绍BeautifulSoup4的基本功能、安装方法、与其他解析工具的对比以及简单的使用示例。 ... [详细]
  • PHP中Smarty模板引擎自定义函数详解
    本文详细介绍了如何在PHP的Smarty模板引擎中自定义函数,并通过具体示例演示了这些函数的使用方法和应用场景。适合PHP后端开发者学习。 ... [详细]
  • 深入解析Pytest Fixture与Conftest的高级应用
    本文详细探讨了Pytest中的Fixture机制及其在conftest.py文件中的全局配置应用,涵盖Fixture的基本概念、定义、多种使用场景以及作用域等内容,适合希望深入了解Pytest测试框架的开发者。 ... [详细]
  • 分布式系统的发展历程及优化策略
    本文探讨了分布式系统从萌芽到成熟过程中遇到的问题及其解决方案,包括服务与数据库的分离、缓存技术的应用、服务集群的构建、数据库读写分离、反向代理与CDN加速技术、分布式文件系统与数据库的引入、NoSQL与搜索引擎的应用、业务与服务的拆分以及大数据技术、监控与日志分析系统的实施。 ... [详细]
  • Pikachu平台SQL注入漏洞详解
    本文详细介绍了SQL注入漏洞的基本原理、攻击流程、不同类型注入点的识别与利用方法,以及基于union联合查询、报错信息、布尔盲注、时间盲注等多种技术手段的信息获取方式。同时,探讨了如何通过SQL注入获取操作系统权限,以及HTTP Header注入和宽字节注入等高级技巧。最后,提供了使用SQLMap自动化工具进行漏洞测试的方法和常见的SQL注入防御措施。 ... [详细]
  • 解决 IIS 无法访问 .pnts 文件的问题
    本文详细介绍了在使用 IIS 服务器时遇到的 .pnts 文件无法访问的问题及其解决方案。通过正确配置 MIME 类型,可以轻松解决这一常见问题。 ... [详细]
  • 【Java数据结构和算法】008栈
    目录0、警醒自己一、栈的应用场景和介绍1、栈的应用场景一个实际的场景:我的思考:2、栈的介绍入栈演示图:出栈演示图 ... [详细]
  • 本文档提供了首次周测的答案解析,涵盖特殊符号、命令作用、路径说明以及实战练习等内容。 ... [详细]
  • 本文简要介绍了如何使用 Python Elasticsearch DSL 进行基本和高级查询,包括连接 Elasticsearch、执行简单和复杂查询、聚合、排序及分页等。 ... [详细]
  • 前端技术分享——利用Canvas绘制鼠标轨迹
    作为一名前端开发者,我已经积累了Vue、React、正则表达式、算法以及小程序等方面的技能,但Canvas一直是我的盲区。因此,我在2018年为自己设定了一个新的学习目标:掌握Canvas,特别是如何使用它来创建CSS3难以实现的动态效果。 ... [详细]
  • 正则表达式入门指南
    本文基于《正则表达式必知必会》(作者:Ben Forta,译者:杨涛),介绍了正则表达式的基本概念及其应用,包括搜索与替换功能,以及元字符的分类与使用。 ... [详细]
author-avatar
h38868863
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有