当前位置: 开发笔记 > 编程语言 > 正文

datetime索引_【免费毕设】ASP.NET基于Ajax+Lucene构建搜索引擎的设计和实现(源代码+论文)...

作者：只属于天天的牛牛 | 来源：互联网 | 2024-10-09 12:30

点击上方“蓝字”关注我们目录系统设计4.1搜索引擎模型模型包括爬虫、索引生成、查询以及系统配置部分。爬虫包括：网页抓取模块、网页减肥模块、爬虫维持模块。索引生成包括&

点击上方“蓝字”关注我们

系统设计

4.1 搜索引擎模型

模型包括爬虫、索引生成、查询以及系统配置部分。爬虫包括&＃xff1a;网页抓取模块、网页减肥模块、爬虫维持模块。索引生成包括&＃xff1a;基于文本文件的索引、基于数据库的索引。查询部分有Ajax、后台处理、前台界面模块。如图4所示。

4.2 数据库的设计

本课题包含一张用于存放抓取回来的网页信息如表1。

4.3模块设计

该模型按照功能划分为三个部分&＃xff0c;一是爬虫抓取网页部分&＃xff0c;二是从数据库建立索引部分&＃xff0c;三是从前台页面查询部分。系统的功能流程(如图5.1和5.2)。

该系统用3个模块来实现搜索引擎的主要功能。流程如上图所示。

从一个或若干初始网页的URL开始&＃xff0c;获得初始网页上的URL&＃xff0c;在抓取网页的过程中&＃xff0c;不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。这条件可以是限定的谋个域名空间、或者是限定的网页抓取级数。当在获取URL时存在这样的问题就是在实际应用中主要以绝对地址和相对地址来表现。绝对地址是指一个准确的、无歧义的Internet资源的位置&＃xff0c;包含域名(主机名)、路径名和文件名&＃xff1b;相对地址是绝对地址的一部分。然后把抓取到的网页信息包括网页内容、标题、链接抓取时间等信息经过‘减肥’后保存到网页存储数据库表里。然后通过正则表达式&＃xff0c;去掉多余的HTML标签。因为抓取的网页含有HTML标签、Javascript等&＃xff0c;对搜索多余的信息&＃xff0c;如果抓取到的网页不经过处理就会使搜索变得不够精确。

让爬虫程序能继续运行下去&＃xff0c;就得抓取这个网页上的其它URL&＃xff0c;所以要用正则将这个网页上的所有URL都取出来放到一个队列里。用同样的方法继续抓取网页&＃xff0c;这里将运用到多线程技术。

为了对文档进行索引&＃xff0c;Lucene提供了五个基础的类&＃xff0c;他们分别是Document&＃xff0c;Field&＃xff0c;IndexWriter&＃xff0c;Analyzer&＃xff0c;Directory Document是用来描述文档的&＃xff0c;这里的文档可以指一个HTML页面&＃xff0c;一封电子邮件&＃xff0c;或者是一个文本文件。一个Document对象由多个Field对象组成的。可以把一个Document对象想象成数据库中的一个记录&＃xff0c;而每个Field对象就是记录的一个字段。在一个文档被索引之前&＃xff0c;首先需要对文档内容进行分词处理&＃xff0c;这部分工作就是由Analyzer来做的。Analyzer类是一个抽象类&＃xff0c;它有多个实现。针对不同的语言和应用需要选择适合的Analyzer。Analyzer把分词后的内容交给IndexWriter来建立索引。

所有的搜索引擎的目标都是为了用户查询。通过查询页面&＃xff0c;输入关键字&＃xff0c;提交给系统&＃xff0c;程序就开始处理&＃xff0c;最后把结果以列表的形式显示出来。在用Lucene的搜索引擎中&＃xff0c;用到了Lucene提供的方法&＃xff0c;可从所建立的索引文档中获得结果。

系统实现1开发环境

开发平台的选择&＃xff1a;本系统的开发平台选择微软公司的.NET&＃xff0c;开发工具采用ASP.NET。.NET是Microsoft面向Web服务的平台&＃xff0c;由框架、Web服务、.NET企业服务器等几部分组成&＃xff0c;提供涉及面较广、功能较全面的解决方案。数据库选择&＃xff1a;根据需求分析选择了MSSQL Server 2000。

5.2 关键代码详解

5.2.1代码结构

如图6&＃xff1a;

在网页爬虫Console端应用程序里输入一个有效的URL后这部份就开始从第一个URL开始遍历相关的链接并把相关的信息写入到网页数据存储数据库里&＃xff0c;然后就由索引生成程序读取网页数据存储数据库&＃xff0c;对每条记录生成索引记录&＃xff0c;存放于生成的索引库文件里。生成索引需要调用Lucene.Net类。索引生成后在查询部分就能够在网页上输入关键字&＃xff0c;对刚才抓取的信息的查询。并可以定位到信息的出处。下面对各部分关键代码进行详解。

2爬虫部分

这部份的功能就是从输入的URL开始遍历各个相关的网页&＃xff0c;它包括三个功能模块&＃xff1a;网页抓取模块、网页减肥模块、爬虫维持模块。

首先定义一些变量用于保存抓取到的网页信息&＃xff0c;urlList用于保存当前页面上的URL集合。然后根据全局变量url抓取此URL的网页信息到字节流变量里&＃xff0c;经过转码后读取到变量PageString里&＃xff0c;下步通过函数GetHttpUrl(PageString)对PageString中的URL标记进行提取并返回到urlList变量里&＃xff0c;函数GetTitle(PageString)、parseScript(PageString)、parseHtml(PageString)、parseChar(Content)分别对网页信息变量获取标题、去除脚本块、去除HTML标记、去除特殊字符操作。再下步就是对获取到的标题、网页内容、链接等信息调用数据库操作通用类DAI保存到数据库里&＃xff0c;这就实现了一个网页的抓取。再下步就是循环的对获取到的URL列表创建线程&＃xff0c;针对每个URL来循环的执行上面的网页信息的抓取操作。具体代码如下&＃xff1a;

private staticvoid UrlThread()

{

String ;

String Content&＃61;"";

String mata&＃61;"";

string URL&＃61;"";

string[] urlArr &＃61; null;

StringBuilder urlList &＃61; newStringBuilder();

System.Net.WebClient Client&＃61;newSystem.Net.WebClient();

try

{

Streamstrm&＃61;null;

try

{//读取一个URL的信息到流变量里

Stream strm&＃61;Client.OpenRead(url);

}

catch

{

console.WriteLine("url无法找到&＃xff01;");

return;

}

StreamReadersr&＃61;new StreamReader(strm,Encoding.GetEncoding("gb2312"));

StringPageString&＃61;sr.ReadToEnd();//从流中读取网页信息到字符串变量中

strm.Close();

urlList&＃61; GetHttpUrl(PageString);

title&＃61;GetTitle(PageString);

Content&＃61; parseScript(PageString); //去掉脚本的网页文本

Content&＃61;parseHtml(PageString); //得到去了HTML标签的网页文本

URL&＃61;url;

mata&＃61;"";

Content&＃61; parseChar(Content);

if((title!&＃61; "" || title !&＃61; string.Empty) && URL !&＃61; "")

{

DAI.RunSqlNonQuery("insert intoWebContent(url,content,title,mata) values(&＃39;"&＃43;URL&＃43;"&＃39;,&＃39;"&＃43;Content&＃43;"&＃39;,&＃39;"&＃43;title&＃43;"&＃39;,&＃39;"&＃43;mata&＃43;"&＃39;)");

Console.WriteLine("对url:"&＃43;URL&＃43;"相关信息写入数据库成功!");

}

else

{

Console.WriteLine("对url:"&＃43;URL&＃43;"相关信息写入数据库失败!");

}

urlArr&＃61;urlList.ToString().Split(&＃39;|&＃39;);

//对前面获取的URL列表循环的创建线程再执行本方法实现爬虫的维持

for(inti&＃61;0;i

{

url&＃61;urlArr[i];

if(url &＃61;&＃61; "" || url &＃61;&＃61; null ||url &＃61;&＃61; string.Empty)

continue;

Thread th &＃61; new Thread(new ThreadStart(UrlThread));

th.Start();

}

catch{}

}

3索引生成

这部分包含对文本的索引生成以及对数据库数据的索引生成&＃xff0c;下面只对数据库索引生成的关键代码进行介绍&＃xff1a;

下面这段代码实现对数据库里存储的记录创建索引。主要通过Lucene提供的方法来协助实现。

publicIndexer(string indexDir)

{

#region Lucene Code

首先通过标准分词定义了一个索引写入器

IndexWriter writer &＃61; newIndexWriter(indexDir, new StandardAnalyzer(), true);

在创建索引库时&＃xff0c;会合并多个Segments文件。此方式有助于减少索引文件数量&＃xff0c;减少同时打开的文件数量。

writer.SetUseCompoundFile(false);

//删除以前生成的索引文件。

System.IO.Directory.Delete(iDexDir,true);

#endregion

DateTimestart &＃61; DateTime.Now;

DoIndexByDB(writer);//

DateTime end&＃61; DateTime.Now;

int docNum &＃61;writer.DocCount();

Console.WriteLine("IndexFinished. {0} Documents takes {1} second.",

docNum,((TimeSpan)(end - start)).TotalSeconds);

writer.Optimize();

writer.Close();

}

使用Lucene提供的方法对数据库中的每条记录建立索引实现如下&＃xff1a;

Document doc&＃61; new Document();

Console.WriteLine("Indexing{0} ", row["title"].ToString());

doc.Add(Field.Text("contents",row["content"].ToString()));

doc.Add(Field.Keyword("title",row["title"].ToString()));

doc.Add(Field.Keyword("mata",row["mata"].ToString()));

doc.Add(Field.Keyword("CreateDate",row["CreateDate"].ToString()));

doc.Add(Field.Keyword("Url",row["Url"].ToString()));

doc.Add(Field.Keyword("ID",row["ID"].ToString()));

writer.AddDocument(doc);

5.2.4页面查询

这部分主要完成的功能是获取前台表单中输入的关键字&＃xff0c;在程序中获取查询结果&＃xff0c;最后把列表显示在前台页面。

Ajax在此部分中被使用到&＃xff0c;它完成的功能是部分刷新页面&＃xff0c;不需整个页面的重新加载。为了方便的在程序中使用Ajax&＃xff0c;此系统引用了封装完善的Ajax类库。在程序中注册后&＃xff0c;在html里就可以使用Javascript来调用后台的程序。选取部分代码来说明&＃xff1a;

首先在页面后台程序中进行Ajax注册&＃xff0c;代码如下&＃xff1a;

private voidPage_Load(object sender, System.EventArgs e)

{

//ajax注册

AjaxPro.Utility.RegisterTypeForAjax(typeof(Search));

}

如果前台Javascript需要调用某个方法&＃xff0c;那就在那个函数前加上[AjaxPro.AjaxMethod]&＃xff0c;表示此方法属于ajax应用。

[AjaxPro.AjaxMethod]

publicstring SearchResult(string keywords,string pageNo)

{

其中&＃xff0c;前台所存在的文字的代码如下&＃xff1a;

StringBuilder sb &＃61; new StringBuilder();

sb.Append("

结果数:"&＃43;result&＃43;" 所用时间:"&＃43;t&＃43;"毫秒");

前台显示结果记录的代码&＃xff0c;动态生成table标签&＃xff0c;如下&＃xff1a;

for(int i &＃61; startNum ; i

{

在显示内容中&＃xff0c;仍然使用到了Lucene提供的类&＃xff0c;可以方便的从所建立的索引文档中获取网址&＃xff0c;网页标题&＃xff0c;内容&＃xff0c;时间。

Document doc &＃61; hits.Doc(i);

content&＃61;doc.Get("contents");

content&＃61;content.Replace(keywords,""&＃43;keywords&＃43;"");

sb.Append("

");

sb.Append("

"&＃43;doc.Get("title")&＃43;"");

sb.Append("

");

sb.Append("

");

sb.Append("

"&＃43;content&＃43;"
"&＃43;doc.Get("CreateDate")&＃43;"");

sb.Append("

");

}

源文件

详情请关注小编继续了解&＃xff0c;免费赠送源代码与论文哦&＃xff01;

计算机毕业设计(源程序&＃43;论文&＃43;开题报告&＃43;文献综述&＃43;翻译&＃43;答辩稿)

联系QQ:2932963541进行咨询

网站地址&＃xff1a;http://www.webtmall.com/扫码关注最新动态更多精彩&＃xff0c;点击下方“

推荐阅读

int
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
buffer
深入探讨CPU虚拟化与KVM内存管理

本文详细介绍了现代服务器架构中的CPU虚拟化技术，包括SMP、NUMA和MPP三种多处理器结构，并深入探讨了KVM的内存虚拟化机制。通过对比不同架构的特点和应用场景，帮助读者理解如何选择最适合的架构以优化性能。 ... [详细]

蜡笔小新 2024-12-25 19:15:51
buffer
Spring Boot 服务的最大并发处理能力

本文探讨了 Spring Boot 应用程序在不同配置下支持的最大并发连接数，重点分析了内置服务器（如 Tomcat、Jetty 和 Undertow）的默认设置及其对性能的影响。 ... [详细]

蜡笔小新 2024-12-25 16:45:57
version
微软Exchange服务器遭遇2022年版“千年虫”漏洞

微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞，导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]

蜡笔小新 2024-12-25 14:08:03
select
C++面试高频题

作者：守望者1028链接：https:www.nowcoder.comdiscuss55353来源：牛客网面试高频题：校招过程中参考过牛客诸位大佬的面经，但是具体哪一块是参考谁的我 ... [详细]

蜡笔小新 2024-12-25 12:32:36
express
Servlet 表单处理：GET 和 POST 请求的深入解析

本文详细探讨了HTML表单中GET和POST请求的区别，包括它们的工作原理、数据传输方式、安全性及适用场景。同时，通过实例展示了如何在Servlet中处理这两种请求。 ... [详细]

蜡笔小新 2024-12-23 18:09:59
select
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
select
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
select
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
input
如何在ASP.NET中操作没有runat='server'属性的HTML元素

本文探讨了在不使用服务器控件的情况下，如何通过多种方法获取并修改页面中的HTML元素值。除了常见的AJAX方式，还介绍了其他可行的技术方案。 ... [详细]

蜡笔小新 2024-12-27 06:30:46
utf-8
掌握远程执行Linux脚本和命令的技巧

本文将详细介绍如何利用Python的Paramiko库实现远程执行Linux脚本和命令，帮助读者快速掌握这一实用技能。通过具体的示例和详尽的解释，让初学者也能轻松上手。 ... [详细]

蜡笔小新 2024-12-26 19:47:05
utf-8
使用Vultr云服务器和Namesilo域名搭建个人网站

本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站，包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南，帮助读者顺利完成建站过程。 ... [详细]

蜡笔小新 2024-12-26 16:36:34
ascii
掌握Java EE的全面指南

探讨如何真正掌握Java EE，包括所需技能、工具和实践经验。资深软件教学总监李刚分享了对毕业生简历中常见问题的看法，并提供了详尽的标准。 ... [详细]

蜡笔小新 2024-12-25 13:38:29
byte
深入解析TCP/IP五层协议

本文详细介绍了TCP/IP五层协议模型，包括物理层、数据链路层、网络层、传输层和应用层。每层的功能及其相互关系将被逐一解释，帮助读者理解互联网通信的原理。此外，还特别讨论了UDP和TCP协议的特点以及三次握手、四次挥手的过程。 ... [详细]

蜡笔小新 2024-12-24 14:02:48
nodejs
FinOps 与 Serverless 的结合：破解云成本难题

本文探讨了如何通过 FinOps 实践优化 Serverless 应用的成本管理，提出了首个 Serverless 函数总成本估计模型，并分享了多种有效的成本优化策略。 ... [详细]

蜡笔小新 2024-12-24 12:44:26

只属于天天的牛牛

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章