首页
技术博客
PHP教程
数据库技术
前端开发
HTML5
Nginx
php论坛
新用户注册
|
会员登录
PHP教程
技术博客
编程问答
PNG素材
编程语言
前端技术
Android
PHP教程
HTML5教程
数据库
Linux技术
Nginx技术
PHP安全
WebSerer
职场攻略
JavaScript
开放平台
业界资讯
大话程序猿
登录
极速注册
取消
热门标签 | HotTags
devops
路由器
nginx
shell
运维
zsh
ssh
kubectl
grafana
7层
交换机
syslog
debian
k8s
centos7
tengine
awk
linux
sudo
curl
ftp
4层
stdout
service
port
ubuntu
grep
server
vagrant
sftp
crontab
cron
docker
apache
centos
负载均衡
容器
colors
jenkins
压力测试
unix
tomcat
服务器
touch
fabric
dns
当前位置:
开发笔记
>
运维
> 正文
C++算法之海量数据处理方法的总结分析
作者:吕小布 | 来源:互联网 | 2021-08-16 06:38
本篇文章是对海量数据处理方法进行了详细的总结与分析,需要的朋友参考下
海量数据处理中常用到的技术
1. Bloom Filtering
基本的Bloom Filtering支持快速的插入和查找操作,是一种hash表技术。基本的数据结构非常简单,容量为m的位数组,k个hash函数,将输入的n个元素存储在位数组里面。
每次插入一个新的元素,先计算该元素的k个hash指,将位数组对应hash值位置为1. 查找某个元素时,同样的先计算k个hash值,然后查询看是否对应位数组中得k位是否都是1,是则断定元素存在。
基本的Bloom Filtering算法可以用于允许误差的快速判重操作。集合的交集、并集的计算。
Bloom Filtering有个改进的版本counting bloom filtering可以支持数据的删除操作,countering bloom filtering和基本的bloom filtering相比,位数组中每一位的取值扩展成多位,基本的bloom filtering用1bit表示一位。插入一个元素时,所有的k位都加1,删除时都减1,查找时如果k个值都大于0则判定为存在。CBF中有个很重要的参数,即每一位的位数为多少。可以通过理论证明,位数一般取4就足够了,可以支持同一个数据插入16次。
bitmap可以看做bloom filtering的特例
2. Hash表技术
d-left hash hash表负载均衡技术。将hash表分成d段,设计d个hash函数,更具负载选择一个合适的段存放数据。查找时要计算d个hash值,分别在d段中找。
常用于统计次数。
3. 堆技术
堆有两个典型的应用:
多路归并排序
求TopK
多路归并排序时,降序排序时用最大堆,升序排序用最小堆。
TopK时,求TopK最大时,用最小堆,求TopK最小时用最大堆。求topK最大时,利用最小堆堆维护K个值,当新扫描的值大于堆顶元素时,堆顶元素删除,插入新的值。这样扫描完一遍数据,既可以求得topK最大。
4. 双层桶(多层桶)设计
hash表技术是一种direct addr 技术,但是当数据范围分布过广、且数据量非常大的时候,采用hash表直接direct addr技术就不行了,这是可以使用多层hash技术。将原始数据范围分成小段,每一段内存可以装载,段内可以使用direct addr table技术。可以用多层分级快速定位到小段。
算法
负载均衡
写下你的评论吧 !
吐个槽吧,看都看了
会员登录
|
用户注册
推荐阅读
server
linux服务器开发之网关服务器的实现
什么是网关服务器初学linux服务器开发时,我们的服务器是很简单的,只需要一个程序完成与客户端的连接,接收客户端数据,数据处理,向客户端发送数据。但是在处理量很大的情况下,一 ...
[详细]
蜡笔小新 2023-10-16 15:00:29
server
JavaScript疑难杂症系列相称性推断的知识点详解
本文详细解析了JavaScript中相称性推断的知识点,包括严厉相称和宽松相称的区别,以及范例转换的规则。针对不同类型的范例值,如差别范例值、统一类的原始范例值和统一类的复合范例值,都给出了具体的比较方法。对于宽松相称的情况,也解释了原始范例值和对象之间的比较规则。通过本文的学习,读者可以更好地理解JavaScript中相称性推断的概念和应用。 ...
[详细]
蜡笔小新 2023-12-14 19:12:10
server
服务网关与流量网关
一、为什么需要服务网关1、什么是服务网关传统的单体架构中只需要开放一个服务给客户端调用,但是微服务架构中是将一个系统拆分成多个微服务,如果没有网关& ...
[详细]
蜡笔小新 2023-10-17 17:57:54
server
ESX 3.5 使用
在单位的一台4cpu的服务器上部署了esxserver,挂载了6个虚拟机,目前运行正常。在安装部署过程中,得到了cnvz.net论坛精华区 ...
[详细]
蜡笔小新 2023-10-17 17:20:29
server
k8s+springboot+Eureka如何平滑上下线服务
k8s+springboot+Eureka如何平滑上下线服务目录服务平滑上下线-k8s版本目录“上篇介绍了springboot+Euraka服务平滑上下线的方式,有部分小伙伴反馈k ...
[详细]
蜡笔小新 2023-10-17 17:11:05
server
ZooKeeper 学习
前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ...
[详细]
蜡笔小新 2023-10-17 17:07:40
server
抖音服务器带宽有多大,才能供上亿人同时刷?
最近看到一个有意思的提问:抖音服务器带宽有多大,为什么能够供那么多人同时刷?今天来给大家科普一下。 ...
[详细]
蜡笔小新 2023-10-17 16:40:50
server
开发笔记:SpringCloud Ribbon 部分源码
篇首语:本文由编程笔记#小编为大家整理,主要介绍了SpringCloudRibbon部分源码相关的知识,希望对你有一定的参考价值。1:ribbon是提供通过servi ...
[详细]
蜡笔小新 2023-10-17 16:30:59
service
LVS-DR直接路由实现负载均衡示例
nsitionalENhttp:www.w3.orgTRxhtml1DTDxhtml1-transitional.dtd ...
[详细]
蜡笔小新 2023-10-17 10:27:04
service
pm2常用的命令用法介绍
pm2常用的命令用法介绍pm2是一个带有负载均衡功能的Node应用的进程管理器.当你要把你的独立代码利用全部的服务器上的所有CPU,并保证进程永远都活着,0秒的重载, ...
[详细]
蜡笔小新 2023-10-17 09:28:40
server
域名解析系统DNS
文章目录前言一、域名系统概述二、因特网的域名结构三、域名服务器1.根域名服务器2.顶级域名服务器(TLD,top-leveldomain)3.权威(Authoritative)域名 ...
[详细]
蜡笔小新 2023-10-17 02:59:43
grep
MySQL Atlas读写分离
目录Atlas介绍Atlas部署Atlas基本管理Atlas结合MHA故障恢复读写分离建议Atlas介绍Atlas是由Qihoo360Web平台部基础架构团队开发维护的一个基于My ...
[详细]
蜡笔小新 2023-10-16 17:35:19
交换机
php网站设计实验报告,php网站开发实训报告
本文目录一览:1、php动态网站设计的关键技术有哪些软件,及搭建步骤需要哪些页面,分别完成 ...
[详细]
蜡笔小新 2023-10-16 16:13:52
server
nginx实现mysql的负载均衡_MySQL
Nginxgaodaima.comnginx属于七层架构,支持的是http协议,本身对tcp协议没有支持。所以不能代理mysql等实现负载均衡。但是lvs这个东西不熟悉,主要是公司 ...
[详细]
蜡笔小新 2023-10-16 15:08:42
运维
朱晔的互联网架构实践心得S1E7:三十种架构设计模式(上)
朱晔的互联网架构实践心得S1E7:三十种架构设计模式(上)【下载本文PDF进行阅读】设计模式是前人通过大量的实践总结出来的一些经验总结和最佳实践。在经过多年的软件开发实践之后,回过头 ...
[详细]
蜡笔小新 2023-10-16 14:34:46
吕小布
这个家伙很懒,什么也没留下!
Tags | 热门标签
devops
路由器
nginx
shell
运维
zsh
ssh
kubectl
grafana
7层
交换机
syslog
debian
k8s
centos7
tengine
awk
linux
sudo
curl
ftp
4层
stdout
service
port
ubuntu
grep
server
vagrant
sftp
RankList | 热门文章
1
万国数据、盘古数据、美利云、真视通的共同点是什么?
2
PHP安全配置详解
3
java+垃圾回收器+的功能_JAVAJVM 垃圾回收器
4
关于C#中Socket通信中,服务端如何使用客户端和服务端建立的现有连接(也就是现有socket进行通信)
5
优化在树莓派上搭建的个人博客网站 1/4
6
Windows 10系统下彻底删除卸载MySQL的方法教程
7
tbody是什么意思.起到什么作用
8
weblogic7JMS开发,两种连接工厂都试了,topic producer已经将消息发布至主题,但同步接收者接受不到,高手请教
9
Linux学习之Kali制作简单的Windows的木马,创建后门
10
Java多线程系列“JUC原子类”04之 AtomicLongArray原子类
11
python execute传参_Python Execute()恰好接受2个参数(给定3个)
12
mysql业务数据库连接失败(mysql业务数据库连接失败怎么回事)
13
python做软件二次开发好吗_软件行业如何评价软件开发与二次开发?
14
poj 2594Treasure Exploration(有向图路径可相交的最小路径覆盖)
15
EasyUI简单权限分配
PHP1.CN | 中国最专业的PHP中文社区 |
DevBox开发工具箱
|
json解析格式化
|
PHP资讯
|
PHP教程
|
数据库技术
|
服务器技术
|
前端开发技术
|
PHP框架
|
开发工具
|
在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |
京公网安备 11010802041100号
|
京ICP备19059560号-4
| PHP1.CN 第一PHP社区 版权所有