爬虫逻辑及数据存储

作者：pokiyo6836 | 来源：互联网 | 2023-05-17 22:29

#爬虫逻辑及数据存储####hbase表结构```mysqlcreateitdaan:post,{NAMEa,VERSIONS1},{NAMEb,VERSION

# 爬虫逻辑及数据存储 #### hbase表结构 ```mysql create '#:post',{NAME=>'a',VERSIOnS=>1},{NAME=>'b',VERSIOnS=>1},{SPLITS=>['01','02','03','04','05','06','07','08','09','0a','0b','0c','0d','0e','0f','10','11','12','13','14','15','16','17','18','19','1a','1b','1c','1d','1e','1f','20','21','22','23','24','25','26','27','28','29','2a','2b','2c','2d','2e','2f','30','31','32','33','34','35','36','37','38','39','3a','3b','3c','3d','3e','3f','40','41','42','43','44','45','46','47','48','49','4a','4b','4c','4d','4e','4f','50','51','52','53','54','55','56','57','58','59','5a','5b','5c','5d','5e','5f','60','61','62','63','64','65','66','67','68','69','6a','6b','6c','6d','6e','6f','70','71','72','73','74','75','76','77','78','79','7a','7b','7c','7d','7e','7f','80','81','82','83','84','85','86','87','88','89','8a','8b','8c','8d','8e','8f','90','91','92','93','94','95','96','97','98','99','9a','9b','9c','9d','9e','9f','a0','a1','a2','a3','a4','a5','a6','a7','a8','a9','aa','ab','ac','ad','ae','af','b0','b1','b2','b3','b4','b5','b6','b7','b8','b9','ba','bb','bc','bd','be','bf','c0','c1','c2','c3','c4','c5','c6','c7','c8','c9','ca','cb','cc','cd','ce','cf','d0','d1','d2','d3','d4','d5','d6','d7','d8','d9','da','db','dc','dd','de','df','e0','e1','e2','e3','e4','e5','e6','e7','e8','e9','ea','eb','ec','ed','ee','ef','f0','f1','f2','f3','f4','f5','f6','f7','f8','f9','fa','fb','fc','fd','fe','ff']} ``` #### hbase字段描述 | 列族 | 列名 | 备注 | | ------ | ---------- | -------- | | rowkey | md5(url) | url的md5值 | | a | title | 标题 | | a | content | 内容 | | a | author | 作者 | | a | postTime | 发布时间 | | a | url | 地址 | | a | tags | 标签 | | a | webId | 网站ID | | a | typeId | 网站类型ID | | a | viewNum | 查看次数 | | a | isCrowd | 是否爬取成功 | | a | crowdTimes | 失败次数 | | a | replies | 回复内容 | | a | crowdTime | 爬取时间 | #### hive表结构 ```mysql CREATE EXTERNAL TABLE if not exists post( id string, title string, content string, author string, postTime string, url string, tags string, webId string, typeId string, viewNum string, voteNum string, commentNum string, upNum string, downNum string, crowdTimes string, `replies` string, crowdTime string, publish string, updateTime string, updatetimes bigint ) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES('hbase.columns.mapping' = ':key,a:title,a:content,a:author,a:postTime,a:url,a:tags,a:webId,a:typeId,a:viewNum,a:voteNum,a:commentNum,a:upNum,a:downNum,a:crowdTimes,a:replies,a:crowdTime,a:publish,a:updateTime,:timestamp') TBLPROPERTIES('hbase.table.name' = '#:post'); ``` solr表结构 ```mysql add jar /data/soft/hive/lib/Hive2Solr-2.1.1-5.5.3.jar; drop table if exists solr_post; create external table solr_post ( id string, title string, text string, author string, url string, tags string, web_id int, type_id int, vote_num int, view_num int, comment_num int, post_time string ) stored by "com.jazz.hive.store.SolrStorageHandler" tblproperties('solr.url' = 'http://localhost:8983/solr/contentindex', 'solr.query' = '*:*', 'solr.cursor.batch.size'='1000', 'solr.primary_key'='id' , 'is.solrcloud'='0' ); ``` 创建solr索引 ```mysql INSERT OVERWRITE TABLE solr_post select id,title,content as `text`,author,url,if(tags is null,"",concat("_array_",tags)) as tags,webId,typeId,if(voteNum is null,100,voteNum) as voteNum,if(viewNum is null,0,viewNum) as viewNum,if(commentNum is null,0,commentNum) as commentNum,(case when length(postTime) == 10 then from_unixtime(unix_timestamp(postTime,'yyyy-MM-dd'),"yyyy-MM-dd'T'HH:mm:ss'Z'") else from_unixtime(unix_timestamp(postTime,'yyyy-MM-dd HH:mm:ss'),"yyyy-MM-dd'T'HH:mm:ss'Z'") end) as postTime from post where publish != '0' and updateTime >= '2017-02-10' ``` ```shell #查看kafka消费情况 kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --group page_url_crawler_group_1 --topic page_url_1 --zookeeper #:2181 ```

推荐阅读

hash
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
require
Kafka 集群的高效部署与优化策略

本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤，包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践，涵盖节点选择、网络优化和性能调优等方面，旨在提升系统的稳定性和处理能力。此外，还提供了常见的故障排查方法和监控方案，帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]

蜡笔小新 2024-11-06 20:37:50
netty
面试中如何回答“零拷贝”技术问题？

零拷贝技术是提高I/O性能的重要手段，常用于Java NIO、Netty、Kafka等框架中。本文将详细解析零拷贝技术的原理及其应用。 ... [详细]

蜡笔小新 2024-11-13 02:03:52
netty
Storm集成Kakfa

一、整合说明Storm官方对Kafka的整合分为两个版本，官方说明文档分别如下：StormKafkaIntegratio ... [详细]

蜡笔小新 2024-10-16 20:20:41
netty
基于Web的Kafka管理器工具之Kafkamanager的编译部署详细安装 (支持kafka0.8、0.9和0.10以后版本)（图文详解）（默认端口或任意自定义端口）

问题详情无奈于，在kafka里没有一个较好自带的webui。启动后无法观看，并且不友好。所以，需安装一个第三方的kafka管理工具为了简化开发者和服务工程师维护 ... [详细]

蜡笔小新 2024-10-10 13:27:31
netty
2018深入java目标计划及学习内容

本文介绍了作者在2018年的深入java目标计划，包括学习计划和工作中要用到的内容。作者计划学习的内容包括kafka、zookeeper、hbase、hdoop、spark、elasticsearch、solr、spring cloud、mysql、mybatis等。其中，作者对jvm的学习有一定了解，并计划通读《jvm》一书。此外，作者还提到了《HotSpot实战》和《高性能MySQL》等书籍。 ... [详细]

蜡笔小新 2023-12-11 20:00:32
replace
Go语言中正则表达式的简易应用

本文介绍了Go语言中正则表达式的基本使用方法，并提供了一些实用的示例代码。 ... [详细]

蜡笔小新 2024-11-14 20:27:47
python
周排行与月排行榜开发总结

本文详细介绍了如何在PHP中实现周排行和月排行榜的开发，包括数据库设计、数据记录和查询方法。涉及的知识点包括MySQL的GROUP BY、WEEK和MONTH函数。 ... [详细]

蜡笔小新 2024-11-14 19:14:58
js
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
js
Native与HTML5交互基础教程

本文将介绍如何在混合开发（Hybrid）应用中实现Native与HTML5的交互，包括基本概念、学习目标以及具体的实现步骤。 ... [详细]

蜡笔小新 2024-11-14 12:33:11
js
基于Web的Kafka管理工具Kafkamanager首次访问Web界面的详细配置指南（附图解）

首次访问Kafkamanager Web界面时，需要对Kafka集群进行配置。这一过程相对简单，用户只需依次点击【Cluster】>【Add Cluster】，按照提示完成相关设置即可。本文将通过图文并茂的方式，详细介绍每一步的配置步骤，帮助用户快速上手Kafkamanager。 ... [详细]

蜡笔小新 2024-11-11 20:43:22
js
基于Dubbo与Zipkin的微服务调用链路监控解决方案

本文提出了一种基于Dubbo与Zipkin的微服务调用链路监控解决方案。通过抽象配置层，支持HTTP和Kafka两种数据上报方式，实现了灵活且高效的调用链路追踪。该方案不仅提升了系统的可维护性和扩展性，还为故障排查提供了强大的支持。 ... [详细]

蜡笔小新 2024-11-07 15:51:41
js
Kafka安装与配置深度解析：程序员必备指南

Kafka 是由 Apache 软件基金会开发的高性能分布式消息系统，支持高吞吐量的发布和订阅功能，主要使用 Scala 和 Java 编写。本文将深入解析 Kafka 的安装与配置过程，为程序员提供详尽的操作指南，涵盖从环境准备到集群搭建的每一个关键步骤。 ... [详细]

蜡笔小新 2024-11-07 12:22:05
instance
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
instance
Hbase 的伪分布部署、shell基本操作及hbase相关理念

1，HBase的的的的伪分布式配置-对zookeeper的配置，这个前面配置过，修改zoo.cfg文件，指定zookeeper的主入口-配置的HBase的的：进入optmo ... [详细]

蜡笔小新 2024-09-27 17:38:45

pokiyo6836

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章