热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【ElasticSearch】搜索引擎的技术体系

1、搜索引擎技术体系(1)数据获取步骤1)从外网抓取数据,如运用网页爬虫将网页信息获取到;2)与

1、搜索引擎技术体系
(1)数据获取步骤
1)从外网抓取数据,如运用网页爬虫将网页信息获取到;
2)与内部数据库中的信息进行同步,并将更新后的信息存储到数据库中;
3)对获取到的网页进行分析,对其中的关键字进行筛选;
4)生成搜索的索引文件,对筛选出来的关键字进行索引存储,以便用户通过关键字搜索网页。
(2)排序算法
1)不同的排序算法呈现不同的搜索效果。
2)可以运用推荐算法进行个性化的订制、推荐等。
(3)离线计算系统
1)Hadoop系统架构
HDFS分布式文件系统存储文件,HBase数据库存储数据,YARN用于执行job的操作系统平台。
2)离线计算系统的处理流程

  1. 从内网、外网或云存储中抓取数据;
  2. 将数据全量或者增量地导入HBase,实现数据的实时同步;
  3. 经过复杂的离线处理过程(包括job的业务逻辑处理、多表关联(join)、字段合并等);
  4. 达到秒级的处理速度。

推荐阅读
author-avatar
swaimprichett_556
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有