热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

采集规则设置注意事项

在这个越来越浮躁的社会,越来越多的人期望事情能够越来越轻松,越来越容易。特别是对于瞬息万变的互联网来说,需要时间去仔细琢磨的事情并不适合。就拿网站运营来说,完全的原创文章虽然对网站


在这个越来越浮躁的社会,越来越多的人期望事情能够越来越轻松,越来越容易。特别是对于瞬息万变的互联网来说,需要时间去仔细琢磨的事情并不适合。就拿网站运营来说,完全的原创文章虽然对网站优化排名有很好的帮助,但大部分的网站运营的写作能力并不高,再加上题材的限制、时间的规律性,希望完全通过原创及全手工来运营和优化一个网站是很困难的事情,特别是对于一些资讯类网站、商城类网站、视频类网站等此类页面较多、内容更新要求较快的网站来说,无论是内容建设还是外链发布都是个庞大而复杂的任务,靠手工完成无论是时间上还是成本上都不划算。因而,有时候我们需要使用到一些工具的辅助。采集工具就是其中的一种。

目前在网站采集中使用得比较多的采集工具是火车头采集工具以及织梦自身的dede采集工具,采集工具之间的优劣对比网络上有很多,百度一下你就知道,而采集规则的设置网络上也有很多攻略,大抵都差不多,因而本文也不再多加说明,有兴趣的童鞋可以自行搜索看看。今天美孕宝防辐射服小美要跟大家分享的是,在设置采集规则的时候,有哪些注意事项?

一、采集起止代码设置

在采集规则设置中,很重要的一个步骤就是采集起止代码的设置。一般是一小段代码,以“数字/英文+符号”形式为主。代码越短越不容易出错,并需要具有唯一性,以方便机器快速辨别采集的起止位置。在网上的教程中,这段起止代码一般是完整的一段,如[内容],其中,是开始采集位置,[内容]代表需要采集的部分信息,是终止采集位置,很多人会误以为起止代码一定需要是完整的一段,但实际上并非如此。

如下图两种:


采集规则

 


采集规则

 

代码的某一部分,或者甚至是夹杂中文的代码也可以作为采集的起止代码,这可以去掉一些网站内容开头与结尾带有网站专有标识。

二、标题采集设置

标题采集很简单,有两种方式,如下图所示:


采集规则

 

在需要采集的页面点击右键选择“查看源代码”,在打开的页面中使用快捷键ctrl+f,在出现的搜索栏中输入该采集内容的标题,就能查看到该页面的标题规则,一般为title标签以及h标签,数量在1~4个不等。一般页面会两种标题标签并存。这种情况下,使用h标签会比title标签采集更不容易出错。

需要注意的是,有时候h标签有h1标签h2标签h3标签等,一般只使用h1标签。

三、分页采集规则设置

一些网站由于文章篇幅过长或者希望增加点击率,往往把一篇文章分成几个分页来呈现。这种情况下采集的起止代码就不在同一个页面上,而应该在文章开始页寻找采集开始代码,而在文章结束页寻找终止代码,设置如下:


采集规则

 

四、几个可能导致采集失败的因素

1、网站隐藏内容禁止采集。这种情况以腾讯新闻为例,腾讯新闻的内容在打开的源代码页面里不会呈现出来,因而也无法判别文章的起止位置,也无法采集到其网站内容。

2、网站采集出错。大多数网站内容在网页以及代码中都正常显示,但当采集到目标网站时却显示出错。这种出错分为几类:

a、标题出错。如下图所示,文章的内容会全部集中到标题上。


采集规则

 

b、只采集到标题,内容空白。即无法采集到相关的内容。

c、采集终止符失效,采集内容包括了被采集网站上的广告/版权信息/版尾信息等信息。


采集规则

 

这些都是采集中经常会遇到的问题,了解这些,对于采集以及伪原创都有很大的帮助。虽然在优化上我们并不建议使用采集的方式,但在必要的情况下,了解采集规则,对网站运营还是有一定的好处的。原文出处:美孕宝防辐射服,专载请保留原文链接。谢谢!






推荐阅读
  • 本文讨论了同事工资打听的话题,包括同工不同酬现象、打探工资的途径、为什么打听别人的工资、职业的本质、商业价值与工资的关系,以及如何面对同事工资比自己高的情况和凸显自己的商业价值。故事中的阿巧发现同事的工资比自己高后感到不满,通过与老公、闺蜜交流和搜索相关关键词来寻求解决办法。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文介绍了一些好用的搜索引擎的替代品,包括网盘搜索工具、百度网盘搜索引擎等。同时还介绍了一些笑话大全、GIF笑话图片、动态图等资源的搜索引擎。此外,还推荐了一些迅雷快传搜索和360云盘资源搜索的网盘搜索引擎。 ... [详细]
  • 众筹商城与传统商城的区别及php众筹网站的程序源码
    本文介绍了众筹商城与传统商城的区别,包括所售产品和玩法不同以及运营方式不同。同时还提到了php众筹网站的程序源码和方维众筹的安装和环境问题。 ... [详细]
  • 本文介绍了如何清除Eclipse中SVN用户的设置。首先需要查看使用的SVN接口,然后根据接口类型找到相应的目录并删除相关文件。最后使用SVN更新或提交来应用更改。 ... [详细]
  • HTML5网页模板怎么加百度统计?
    本文介绍了如何在HTML5网页模板中加入百度统计,并对模板文件、css样式表、js插件库等内容进行了说明。同时还解答了关于HTML5网页模板的使用方法、表单提交、域名和空间的问题,并介绍了如何使用Visual Studio 2010创建HTML5模板。此外,还提到了使用Jquery编写美好的HTML5前端框架模板的方法,以及制作企业HTML5网站模板和支持HTML5的CMS。 ... [详细]
  • 本文介绍了互联网思维中的三个段子,涵盖了餐饮行业、淘品牌和创业企业的案例。通过这些案例,探讨了互联网思维的九大分类和十九条法则。其中包括雕爷牛腩餐厅的成功经验,三只松鼠淘品牌的包装策略以及一家创业企业的销售额增长情况。这些案例展示了互联网思维在不同领域的应用和成功之道。 ... [详细]
  • 基于移动平台的会展导游系统APP设计与实现的技术介绍与需求分析
    本文介绍了基于移动平台的会展导游系统APP的设计与实现过程。首先,对会展经济和移动互联网的概念进行了简要介绍,并阐述了将会展引入移动互联网的意义。接着,对基础技术进行了介绍,包括百度云开发环境、安卓系统和近场通讯技术。然后,进行了用户需求分析和系统需求分析,并提出了系统界面运行流畅和第三方授权等需求。最后,对系统的概要设计进行了详细阐述,包括系统前端设计和交互与原型设计。本文对基于移动平台的会展导游系统APP的设计与实现提供了技术支持和需求分析。 ... [详细]
  • 大学生自学复制假饭卡:2个月卖出3千张,获利10万元!背后的神器长啥样?
    山东淄博的一名在校大学生通过自学复制饭卡的技术,2个月内成功卖出3千张假饭卡,获利10万元。他使用了一种特殊的设备来复制饭卡,并通过网店销售给其他学生。该学生已被刑拘。此事被发现是因为学校食堂管理员发现了大量负数的情况,经警方调查后发现是这名学生所为。他制作的假饭卡与真卡几乎一模一样,售价仅为面值的40%。该学生一共复制了三千多张饭卡,并已全部卖完,获利十万余元。 ... [详细]
  • C语言常量与变量的深入理解及其影响
    本文深入讲解了C语言中常量与变量的概念及其深入实质,强调了对常量和变量的理解对于学习指针等后续内容的重要性。详细介绍了常量的分类和特点,以及变量的定义和分类。同时指出了常量和变量在程序中的作用及其对内存空间的影响,类似于const关键字的只读属性。此外,还提及了常量和变量在实际应用中可能出现的问题,如段错误和野指针。 ... [详细]
  • 本文介绍了200个经典c语言源代码,包括函数的使用,如sqrt函数、clanguagefunct等。这些源代码可以帮助读者更好地理解c语言的编程方法,并提供了实际应用的示例。 ... [详细]
  • Gitlab接入公司内部单点登录的安装和配置教程
    本文介绍了如何将公司内部的Gitlab系统接入单点登录服务,并提供了安装和配置的详细教程。通过使用oauth2协议,将原有的各子系统的独立登录统一迁移至单点登录。文章包括Gitlab的安装环境、版本号、编辑配置文件的步骤,并解决了在迁移过程中可能遇到的问题。 ... [详细]
  • 本文讨论了如何使用GStreamer来删除H264格式视频文件中的中间部分,而不需要进行重编码。作者提出了使用gst_element_seek(...)函数来实现这个目标的思路,并提到遇到了一个解决不了的BUG。文章还列举了8个解决方案,希望能够得到更好的思路。 ... [详细]
  • RMAN中的不完整恢复是指通过还原所有数据文件将整个数据库回退,然后执行不完全恢复的操作。不完整恢复的场景包括完整恢复不可行或故意要丢失数据。完整恢复需要备份后生成的所有归档日志和联机重做日志,而如果这些日志缺失或损坏,恢复将在该点停止。决定故意丢失数据是在用户错误发生后采取的行动,例如忘了where条件导致整个表受影响。对于已提交的事务来说,这样的更改是不可逆的。 ... [详细]
  • 本文概述了JNI的原理以及常用方法。JNI提供了一种Java字节码调用C/C++的解决方案,但引用类型不能直接在Native层使用,需要进行类型转化。多维数组(包括二维数组)都是引用类型,需要使用jobjectArray类型来存取其值。此外,由于Java支持函数重载,根据函数名无法找到对应的JNI函数,因此介绍了JNI函数签名信息的解决方案。 ... [详细]
author-avatar
杰_Jb_131
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有