热门标签 | HotTags
当前位置:  开发笔记 > 程序员 > 正文

搜索查询--简单的网页摘要生成

网页摘要是对网页信息的简单概括,用户通过阅读搜索引擎返回的摘要就能确定自己查找的信息是否包含在这个页面中,本文提供一种简单的自动摘要生成方法,简单提取网页内容的前N个字符作为网页摘要。1.博客内容

网页摘要是对网页信息的简单概括,用户通过阅读搜索引擎返回的摘要就能确定自己查找的信息是否包含在这个页面中,本文提供一种简单的自动摘要生成方法,简单提取网页内容的前N个字符作为网页摘要。

1.博客内容格式

一般为

XXXXX

XXXX

2.自动摘要生成

2.1字义每段间隔起止变量

$Begin=0;
$End=0;

2.2查找标签位置

$Begin=strpos($content,"

",$End);
if($Begin==FALSE)break;
$Begin=$Begin+strlen("

");
$End=strpos($content,"

",$Begin);
if($End==FALSE)break;

2.3每段内容截取

$TemAbstract=substr($content,$Begin,$End-$Begin);
if(strpos($TemAbstract,"<")||strpos($TemAbstract,">"))  -------------------------如果还包括其他特殊标签忽略该段
continue;

2.4摘要累加

$Abstract=$Abstract.$TemAbstract;

用while(strlen($Abstract)<400)来控制摘要的基本长度

2.5再处理

如果摘要过长(>600)再进行一次截取,截取至最后一个标点符号,防止摘要过长造成显示不美观以及简单截取造成的乱码。

if(strlen($Abstract)>600)
{
if(strrpos($Abstract,","))$loc=strrpos($Abstract,",");
if(strrpos($Abstract,".")>$loc)$loc=strrpos($Abstract,".");
if(strrpos($Abstract,",")>$loc)$loc=strrpos($Abstract,",");
if(strrpos($Abstract,"。")>$loc)$loc=strrpos($Abstract,"。");
$Abstract=substr($Abstract,0,$loc-1);
}


推荐阅读
  • ABBYY FineReader:高效PDF转换、精准OCR识别与文档对比工具
    在处理PDF转换和OCR识别时,您是否遇到过格式混乱、识别率低或图表无法正常识别的问题?ABBYY FineReader以其强大的功能和高精度的识别技术,完美解决这些问题,帮助您轻松找到最终版文档。 ... [详细]
  • 本文介绍了日文游戏的汉化过程及技巧,包括如何利用现有的资源和工具,以及民间汉化组的贡献。 ... [详细]
  • 本文详细列举了软件开发中常见的功能测试要点,涵盖输入框、搜索、添加/修改、删除、文件上传下载等多个方面,旨在帮助测试人员全面覆盖测试需求,确保软件质量。 ... [详细]
  • Python 文件操作与异常处理全面指南
    本文详细介绍了Python中文件操作的基本方法和异常处理技巧,包括文件的创建、读写、删除等操作,以及如何通过异常处理机制来增强程序的健壮性。 ... [详细]
  • 本题通过将每个矩形视为一个节点,根据其相对位置构建拓扑图,并利用深度优先搜索(DFS)或状态压缩动态规划(DP)求解最小涂色次数。本文详细解析了该问题的建模思路与算法实现。 ... [详细]
  • 本文介绍如何配置SecureCRT以正确显示Linux终端的颜色,并解决中文显示问题。通过简单的步骤设置,可以显著提升使用体验。 ... [详细]
  • 深入解析Spring Boot自动配置机制
    本文旨在深入探讨Spring Boot的自动配置机制,特别是如何利用配置文件进行有效的设置。通过实例分析,如Http编码自动配置,我们将揭示配置项的具体作用及其背后的实现逻辑。 ... [详细]
  • 探讨在Windows 7环境下,C++字符串默认采用GBK编码还是Unicode编码,并提供关于Visual Studio中字符集选择的专业建议。 ... [详细]
  • 如何处理MySQL命令行中文乱码问题
    本文详细探讨了MySQL命令行中出现中文乱码的原因及解决方案,通过调整配置文件和执行特定SQL命令来确保字符集正确设置,为用户提供了一个有效的解决路径。 ... [详细]
  • 本文探讨了如何通过WebBrowser控件在用户点击输入框时自动显示图片验证码。该过程可能涉及JavaScript事件的触发与响应。 ... [详细]
  • Android中解析XML文件的实践指南
    本文详细介绍了在Android应用开发中解析XML文件的方法,包括从本地文件和网络资源获取XML文件的不同途径,以及使用DOM、SAX和PULL三种解析方式的具体实现。 ... [详细]
  • HTML网页出现乱码的主要成因及解决策略
    本文深入分析了HTML网页出现乱码的各种可能原因,并提供了相应的解决方案,帮助开发者有效避免和处理此类问题。 ... [详细]
  • 解决VSCode中文乱码问题的综合方案
    在使用VSCode进行开发时,尤其是涉及Python编程,可能会遇到中文乱码的问题。本文总结了多种有效的解决方案,帮助开发者快速解决这一常见问题。 ... [详细]
  • PHP中静态类与静态变量的应用差异探讨
    本文深入探讨了PHP编程语言中静态类与静态变量的具体应用及其差异性,旨在帮助开发者更好地理解和运用这些概念,以提升代码质量和效率。 ... [详细]
  • 本文详细介绍了在使用EmguCV进行图像处理时常用的函数及其应用场景,旨在帮助开发者更好地理解和利用这些工具。 ... [详细]
author-avatar
霞逸飘
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有