基于数据库的搜索 |
基于spider抓取的站内搜索 |
全文检索站内搜索软技术 |
|
网站 |
大部分网站,如中文BT联盟 |
部分中大型网站如俺要下载软件网 |
少量大型网站,如华军网 |
技术原理 |
数据库搜索 |
经Spider抓取网页,对html解析/分词/索引实现网页式站内搜索 |
对数据库数据进行html解析、分词,索引,实现站内搜索 |
数据容量 |
小于百万级 |
千万级以上 |
千万级以上 |
检索效率 |
秒级速度,准确度高, |
毫秒级速度,高速,准确度低 |
毫秒级速度,高速,准确度高 |
检索能力 |
不支持分词功能,无法完成全文检索,但可以用sql的单字索引功能实现最低级的全文检索 |
支持分词功能,但随数据量增加,搜索结果中垃圾信息比重上升,影响结果的排序和显示效果,严重影响精确度。只对静态页面进行搜索,动态页面数据无法抓取 |
支持分词功能,可对过关键字进行检索,可基于内容分析的排序方法。所有动态网页和没有链接的网页均可有效收录 |
抗压能力 |
差,随数据量上升,数据库压力增大,系统崩溃的危险系数高 |
抗压能力强,系统安全系数高 |
抗压能力强,系统安全系数高 |
结果精度 |
用户对搜索范围、内容和体现的结果无法精确控制 |
用户对搜索范围、内容和体现的结果无法精确控制 |
用户可对搜索的内容范围和体现的结果进行精确的控制 |
内容范围 |
可控制 |
不可有效控制,栏目无法精确控制 |
可有效控制,栏目控制精准 |
动态摘要 |
无 |
摘要内容不清晰各种垃圾信息过多 |
提供动态摘要,摘要清晰精确,便于用户快速寻找到所需信息 |
其他功能 |
1、无关键字飘红 |
1、有关键字飘红 |
1、有关键字飘红 |