1、搜索引擎技术体系
(1)数据获取步骤
1)从外网抓取数据,如运用网页爬虫将网页信息获取到;
2)与内部数据库中的信息进行同步,并将更新后的信息存储到数据库中;
3)对获取到的网页进行分析,对其中的关键字进行筛选;
4)生成搜索的索引文件,对筛选出来的关键字进行索引存储,以便用户通过关键字搜索网页。
(2)排序算法
1)不同的排序算法呈现不同的搜索效果。
2)可以运用推荐算法进行个性化的订制、推荐等。
(3)离线计算系统
1)Hadoop系统架构
HDFS分布式文件系统存储文件,HBase数据库存储数据,YARN用于执行job的操作系统平台。
2)离线计算系统的处理流程
- 从内网、外网或云存储中抓取数据;
- 将数据全量或者增量地导入HBase,实现数据的实时同步;
- 经过复杂的离线处理过程(包括job的业务逻辑处理、多表关联(join)、字段合并等);
- 达到秒级的处理速度。