热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

phpcmsv9自带采集模块功能体验_phpcms_CMS教程

主流CMS系统之一Phpcmsv9自带的采集模块功能如何呢?Phpcmsv9默认内置有文章、图片、下载3个内容模型,先来看最普通的文章采集,感兴趣的你可不要错过了哈

主流CMS系统之一Phpcms v9自带的采集模块功能如何呢?Phpcms v9默认内置有文章、图片、下载3个内容模型,先来看最普通的文章采集,感兴趣的你可不要错过了哈,希望可以帮助到你哈

Phpcms网站管理系统目前最新版本为Phpcms v9,作为国内主流CMS系统之一,目前已有数万网站的应用规模。那么其自带的采集模块功能如何呢,来看看吧。

文章采集

Phpcms v9默认内置有文章、图片、下载3个内容模型,先来看最普通的文章采集。以采集新浪互联网频道,国内滚动新闻栏目为例http://roll.tech.sina.com.cn/internet_chinalist/index_1.shtml

1、进入后台,内容——内容发布管理——采集管理——添加采集点。(不同于Phpcms以往版本,采集管理在模块菜单内)

2、网址规则。采集项目名随便填,采集页面编码默认GBK,具体采集页面的时候可以通过查看其网页源代码。

网址采集,没有大的特色,通过查看所要采集页面的网址规则填写。分析目标页面得出是序列网址,且所要获取内容的网址都在和两个标签之间。无其他干扰链接,所以就无需定义网址中必须包含和不得包含的字符了。如果目标网站配置了Base,那么也要配置好。

网址采集配置结束,但是如果目标网站列表页用js实现上下页,或者所要获取网址深度超过2级,用此自带采集就很难实现了。

3、内容规则。phpcms是用[[内容]]作为通配符,然后设置好开始结束的字符,再过滤不要的代码来实现内容的采集。分析目标页的title标签比较有规律,可以直接如图设置。

过滤格式为[要过滤的内容[|]替换值],如果是删除的话就替换值留空。过滤规则是支持正则表达式,系统自带了几种比较常见的标签过滤正则,要比较灵活过滤的话对于新手来说有点难度,所以新手需要先熟悉下正则表达式。

作者规则,来源规则,时间规则依照规则去获取。小编尝试了一下固定值发现无法实现,就是把某一标签设为固定值,如把[来源]设定为http://www.sina.com.cn,可是采集结果来源标签为空。

 内容规则,填好开始和结束标签,我们测试的目标页比较干净,所以只需过滤掉里面的超链接和一些无用标签即可。

内容分页规则,如果内容页有分页必须填写,此处文章都没有分页,小编会在后面的图片采集来介绍这个标签。

4、自定义规则,除了系统默认的几个标签外,你还可以自定义各种标签,规则是一样的,只是有一点要注意:规则英文名一定要填写,否则自定义标签无法保存。

5、高级配置,此次可以设置下载图片、图片水印、内容分页和导入顺序。其中注意,如果需要水印记得修改好自己网站的水印图片,水印存放路径:statics/images/water

6、规则设置好了,提交回到采集管理首页,可以先通过测试来看看各标签是否准确。

7、发布内容。如果都准确,先点击采集网址,会自动采集文章地址,并过滤重复url。然后会弹出采集网址完成的消息,点击其中的[采集文章内容]

采集自动进行,并显示采集进度。

采集完成后自动回到采集管理首页,点击内容发布,进入到已采集文章列表,勾选要发布的文章,或者直接点击底部的全部导入。

   进入到发布方案选择界面,新建发布方案,选择一个发布栏目,本测试选择的是文章模块的栏目[国内],在方案新建页面可以设置自动提取摘要、自动提取缩略 图、导入文章状态、标签与数据库对应关系。其中,导入文章状态只有一个[发布],如果站长需要状态为待审核,要先修改对应栏目的工作流为一级审核。

标签与数据库对应关系中,把采集标签和数据库字段一一对应,如果有自定义标签找不到对应字段,需要修改模型增加字段,然后通过修改模板来显示,对技术要求比较高,不适合新手。另外系统自带几个处理函数,也挺实用的。

发布方案设置完成,自动开始导入刚才选择的文章,并且下一次导入时就无需再建方案了,直接选择已建好的方案即可。

文章采集、发布完成。看看效果:

后台内容管理页

内容页

下面我们来看看图片采集

图片采集

phpcms v9自带图片模型,对图片处理也有个组图模式,方便一些站长做图片网站或者设置图片展示方式。下面来体验下用自带采集程序来采集图片,以采集http://www.4493.com/mingxingxiezhen/页面的图片为例:

网站获取规则以及内容获取规则等都和文章采集一样,最重要的一点,phpcms v9的图片采集不能只采集图片地址,而是应该采集整个标签,这样才能处理为组图。如本例:内容标签设置为

采集到的内容应该是这样的

 还有个分页问题,目标站的分页如图所示:

网页代码为:

所以只需在内容分页规则处选择全部列出模式,然后填写分页标签开始和结束字符,系统就自动采集分页的内容了。

设置完规则后,采集网址,采集内容,发布内容。发布方案处要注意,小编几经尝试发现,要实现组图模式,必须内容字段和组图字段都要用上[处理为组图]函数。但是这样就无法获取第内容图片做缩略图了,所以最好自定义一个缩略图标签,直接获取一张内容图地址做缩略图。

设置好后发布。见采集效果:

栏目页

内容页

总结: 细细体验下来,phpcms v9自带的采集功能还是比较全面的,满足基本的文章和图片采集。但是不够灵活,对一些高要求的站长来说还明显不足,而且门槛较高,官方对采集模块的说明和帮助文件又非常有限,不利于新手上手。



推荐阅读
  • 深入解析Java虚拟机的内存分区与管理机制
    Java虚拟机的内存分区与管理机制复杂且精细。其中,某些内存区域在虚拟机启动时即创建并持续存在,而另一些则随用户线程的生命周期动态创建和销毁。例如,每个线程都拥有一个独立的程序计数器,确保线程切换后能够准确恢复到之前的执行位置。这种设计不仅提高了多线程环境下的执行效率,还增强了系统的稳定性和可靠性。 ... [详细]
  • 二分查找算法详解与应用分析:本文深入探讨了二分查找算法的实现细节及其在实际问题中的应用。通过定义 `binary_search` 函数,详细介绍了算法的逻辑流程,包括初始化上下界、循环条件以及中间值的计算方法。此外,还讨论了该算法的时间复杂度和空间复杂度,并提供了多个应用场景示例,帮助读者更好地理解和掌握这一高效查找技术。 ... [详细]
  • 为了确保iOS应用能够安全地访问网站数据,本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程,可以确保应用始终使用HTTPS协议,从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法,帮助读者快速上手并成功部署SSL证书。 ... [详细]
  • Python 伦理黑客技术:深入探讨后门攻击(第三部分)
    在《Python 伦理黑客技术:深入探讨后门攻击(第三部分)》中,作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流,难以确定消息批次的结束点,这给后门攻击的实现带来了挑战。为了解决这一问题,文章提出了一系列有效的技术方案,包括使用特定的分隔符和长度前缀,以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性,还为安全研究人员提供了宝贵的参考。 ... [详细]
  • Nginx 反向代理配置与应用指南
    本文详细介绍了 Nginx 反向代理的配置与应用方法。首先,用户可以从官方下载页面(http://nginx.org/en/download.html)获取最新稳定版 Nginx,推荐使用 1.14.2 版本。下载并解压后,通过双击 `nginx.exe` 文件启动 Nginx 服务。文章进一步探讨了反向代理的基本原理及其在实际应用场景中的配置技巧,包括负载均衡、缓存管理和安全设置等,为用户提供了一套全面的实践指南。 ... [详细]
  • Web开发框架概览:Java与JavaScript技术及框架综述
    Web开发涉及服务器端和客户端的协同工作。在服务器端,Java是一种优秀的编程语言,适用于构建各种功能模块,如通过Servlet实现特定服务。客户端则主要依赖HTML进行内容展示,同时借助JavaScript增强交互性和动态效果。此外,现代Web开发还广泛使用各种框架和库,如Spring Boot、React和Vue.js,以提高开发效率和应用性能。 ... [详细]
  • 2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南
    2012年9月12日,优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分,有一道题目涉及中国人的血型分布情况,具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中,至少有一人为B型血的概率不低于90%,则需要选取的最少人数是多少?该问题不仅考察了概率统计的基本知识,还要求考生具备一定的逻辑推理能力。 ... [详细]
  • 在拉斯维加斯举行的Interop 2011大会上,Bitcurrent的Alistair Croll发表了一场主题为“如何以云计算的视角进行思考”的演讲。该演讲深入探讨了传统IT思维与云计算思维之间的差异,并提出了在云计算环境下应具备的新思维方式。Croll强调了灵活性、可扩展性和成本效益等关键要素,以及如何通过这些要素来优化企业IT架构和运营。 ... [详细]
  • 深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案
    深入剖析Java中SimpleDateFormat在多线程环境下的潜在风险与解决方案 ... [详细]
  • 本文深入解析了WCF Binding模型中的绑定元素,详细介绍了信道、信道管理器、信道监听器和信道工厂的概念与作用。从对象创建的角度来看,信道管理器负责信道的生成。具体而言,客户端的信道通过信道工厂进行实例化,而服务端则通过信道监听器来接收请求。文章还探讨了这些组件之间的交互机制及其在WCF通信中的重要性。 ... [详细]
  • 使用 ListView 浏览安卓系统中的回收站文件 ... [详细]
  • 本文详细介绍了在CentOS 6.5 64位系统上使用阿里云ECS服务器搭建LAMP环境的具体步骤。首先,通过PuTTY工具实现远程连接至服务器。接着,检查当前系统的磁盘空间使用情况,确保有足够的空间进行后续操作,可使用 `df` 命令进行查看。此外,文章还涵盖了安装和配置Apache、MySQL和PHP的相关步骤,以及常见问题的解决方法,帮助用户顺利完成LAMP环境的搭建。 ... [详细]
  • 本文详细介绍了在 Oracle 数据库中使用 MyBatis 实现增删改查操作的方法。针对查询操作,文章解释了如何通过创建字段映射来处理数据库字段风格与 Java 对象之间的差异,确保查询结果能够正确映射到持久层对象。此外,还探讨了插入、更新和删除操作的具体实现及其最佳实践,帮助开发者高效地管理和操作 Oracle 数据库中的数据。 ... [详细]
  • 在 Axublog 1.1.0 版本的 `c_login.php` 文件中发现了一个严重的 SQL 注入漏洞。该漏洞允许攻击者通过操纵登录请求中的参数,注入恶意 SQL 代码,从而可能获取敏感信息或对数据库进行未授权操作。建议用户尽快更新到最新版本并采取相应的安全措施以防止潜在的风险。 ... [详细]
  • 在Java项目中,当两个文件进行互相调用时出现了函数错误。具体问题出现在 `MainFrame.java` 文件中,该文件位于 `cn.javass.bookmgr` 包下,并且导入了 `java.awt.BorderLayout` 和 `java.awt.Event` 等相关类。为了确保项目的正常运行,请求提供专业的解决方案,以解决函数调用中的错误。建议从类路径、依赖关系和方法签名等方面入手,进行全面排查和调试。 ... [详细]
author-avatar
开心123
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有