热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

采集规则设置注意事项

在这个越来越浮躁的社会,越来越多的人期望事情能够越来越轻松,越来越容易。特别是对于瞬息万变的互联网来说,需要时间去仔细琢磨的事情并不适合。就拿网站运营来说,完全的原创文章虽然对网站


在这个越来越浮躁的社会,越来越多的人期望事情能够越来越轻松,越来越容易。特别是对于瞬息万变的互联网来说,需要时间去仔细琢磨的事情并不适合。就拿网站运营来说,完全的原创文章虽然对网站优化排名有很好的帮助,但大部分的网站运营的写作能力并不高,再加上题材的限制、时间的规律性,希望完全通过原创及全手工来运营和优化一个网站是很困难的事情,特别是对于一些资讯类网站、商城类网站、视频类网站等此类页面较多、内容更新要求较快的网站来说,无论是内容建设还是外链发布都是个庞大而复杂的任务,靠手工完成无论是时间上还是成本上都不划算。因而,有时候我们需要使用到一些工具的辅助。采集工具就是其中的一种。

目前在网站采集中使用得比较多的采集工具是火车头采集工具以及织梦自身的dede采集工具,采集工具之间的优劣对比网络上有很多,百度一下你就知道,而采集规则的设置网络上也有很多攻略,大抵都差不多,因而本文也不再多加说明,有兴趣的童鞋可以自行搜索看看。今天美孕宝防辐射服小美要跟大家分享的是,在设置采集规则的时候,有哪些注意事项?

一、采集起止代码设置

在采集规则设置中,很重要的一个步骤就是采集起止代码的设置。一般是一小段代码,以“数字/英文+符号”形式为主。代码越短越不容易出错,并需要具有唯一性,以方便机器快速辨别采集的起止位置。在网上的教程中,这段起止代码一般是完整的一段,如[内容],其中,是开始采集位置,[内容]代表需要采集的部分信息,是终止采集位置,很多人会误以为起止代码一定需要是完整的一段,但实际上并非如此。

如下图两种:


采集规则

 


采集规则

 

代码的某一部分,或者甚至是夹杂中文的代码也可以作为采集的起止代码,这可以去掉一些网站内容开头与结尾带有网站专有标识。

二、标题采集设置

标题采集很简单,有两种方式,如下图所示:


采集规则

 

在需要采集的页面点击右键选择“查看源代码”,在打开的页面中使用快捷键ctrl+f,在出现的搜索栏中输入该采集内容的标题,就能查看到该页面的标题规则,一般为title标签以及h标签,数量在1~4个不等。一般页面会两种标题标签并存。这种情况下,使用h标签会比title标签采集更不容易出错。

需要注意的是,有时候h标签有h1标签h2标签h3标签等,一般只使用h1标签。

三、分页采集规则设置

一些网站由于文章篇幅过长或者希望增加点击率,往往把一篇文章分成几个分页来呈现。这种情况下采集的起止代码就不在同一个页面上,而应该在文章开始页寻找采集开始代码,而在文章结束页寻找终止代码,设置如下:


采集规则

 

四、几个可能导致采集失败的因素

1、网站隐藏内容禁止采集。这种情况以腾讯新闻为例,腾讯新闻的内容在打开的源代码页面里不会呈现出来,因而也无法判别文章的起止位置,也无法采集到其网站内容。

2、网站采集出错。大多数网站内容在网页以及代码中都正常显示,但当采集到目标网站时却显示出错。这种出错分为几类:

a、标题出错。如下图所示,文章的内容会全部集中到标题上。


采集规则

 

b、只采集到标题,内容空白。即无法采集到相关的内容。

c、采集终止符失效,采集内容包括了被采集网站上的广告/版权信息/版尾信息等信息。


采集规则

 

这些都是采集中经常会遇到的问题,了解这些,对于采集以及伪原创都有很大的帮助。虽然在优化上我们并不建议使用采集的方式,但在必要的情况下,了解采集规则,对网站运营还是有一定的好处的。原文出处:美孕宝防辐射服,专载请保留原文链接。谢谢!






推荐阅读
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • 360SRC安全应急响应:从漏洞提交到修复的全过程
    本文详细介绍了360SRC平台处理一起关键安全事件的过程,涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例,展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]
  • 本文详细解析了Python中的os和sys模块,介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]
  • 百度服务再次遭遇技术问题,疑似DNS解析故障
    近日晚间,百度多项在线服务出现加载异常,包括移动端搜索在内的多个功能受到影响。初步迹象表明,问题可能与DNS服务器解析有关。 ... [详细]
  • 本文探讨了如何在 PHP 的 Eloquent ORM 中实现数据表之间的关联查询,并通过具体示例详细解释了如何将关联数据嵌入到查询结果中。这不仅提高了数据查询的效率,还简化了代码逻辑。 ... [详细]
  • 爱奇艺视频下载指南
    随着百度在视频领域的不断扩展,爱奇艺的内容库日益丰富,涵盖了大量新番动画、电影、电视剧和综艺节目。本文将详细介绍如何通过爱奇艺客户端下载视频,帮助用户轻松实现离线观看。 ... [详细]
  • 脑机接口(BCI)技术正逐步将科幻变为现实,从帮助听障人士恢复听力到使瘫痪者重新站立,甚至可能将多年的学习过程压缩至瞬间。本文探讨了这一前沿技术的现状、挑战及其未来前景。 ... [详细]
  • 百度搜索结果链接提取工具 UrlGetter V1.43
    该工具专为获取百度搜索引擎的结果页面中的网址链接而设计,能够解析并转换为原始URL。通过正则表达式匹配技术,精准提取网页链接,并提供详细的使用说明和下载资源。 ... [详细]
  • 从 .NET 转 Java 的自学之路:IO 流基础篇
    本文详细介绍了 Java 中的 IO 流,包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据,并结合编码机制确保字符数据的正确读写。同时,文中还涵盖了装饰设计模式的应用,以及多种常见的 IO 操作实例。 ... [详细]
  • 该平台旨在为大型企业提供一个高效、灵活且可扩展的分布式微服务架构解决方案。它采用模块化、微服务化和热部署的设计理念,结合当前最先进且无商业限制的主流开源技术,如Spring Cloud、Spring Boot2、MyBatis、OAuth2和Element UI,实现前后端分离的系统管理平台。 ... [详细]
  • 基于KVM的SRIOV直通配置及性能测试
    SRIOV介绍、VF直通配置,以及包转发率性能测试小慢哥的原创文章,欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]
  • 本题通过将每个矩形视为一个节点,根据其相对位置构建拓扑图,并利用深度优先搜索(DFS)或状态压缩动态规划(DP)求解最小涂色次数。本文详细解析了该问题的建模思路与算法实现。 ... [详细]
  • 本文介绍如何在现有网络中部署基于Linux系统的透明防火墙(网桥模式),以实现灵活的时间段控制、流量限制等功能。通过详细的步骤和配置说明,确保内部网络的安全性和稳定性。 ... [详细]
  • 本文介绍如何调整Element UI组件的边框样式,以确保内容与边框之间有足够的间距,并展示如何通过CSS实现更好的布局效果。 ... [详细]
  • 深入理解ASP.NET MVC中的_ViewStart.cshtml
    本文介绍了_ViewStart.cshtml文件在ASP.NET MVC 3.0及以上版本中的作用和使用方法。该文件位于Views目录下,主要用于统一配置视图布局和其他全局设置。 ... [详细]
author-avatar
杰_Jb_131
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有