9个大数据pain-points

作者：你我她啊 | 来源：互联网 | 2023-02-05 10:09

大数据痛点No.1：通用GPU编程CPU仍然是比较昂贵的产品，至少相对GPU而言是这样的。如果能更好的理解GPU、为GPU开发的驱动不再那么晦涩难懂，整个市场将会被打开。现在的一个事

大数据痛点 No.1：通用GPU编程

CPU仍然是比较昂贵的产品，至少相对GPU而言是这样的。如果能更好的理解GPU、为GPU开发的驱动不再那么晦涩难懂，整个市场将会被打开。现在的一个事实是：GPU消耗更小，这足以平衡对它编程很困难、甚至不使用特定的模型都无法编程的缺点。

这是某种情况下，有人在辛苦地写一些看起来像ODBC或JDBC的东西，以使AMD或Nvidia觉得这个市场比独立图形显卡市场更大。假设你拥有一个Spark的通用绑定，你不必考虑真正的硬件，有一天，人们会开始构建“GPGPU” 集群。

人们已经开始着手这方面的工作了。但如果要获得持续的市场，你至少需要两个无情的竞争对手–AMD和Nvidia，说不定Intel也是——来一起合作，它们当中有一个认为保密是通信竞争成功的通道。天哪，我也想要一个！

大数据痛点 No.2：多工作负载扩展

你拥有Docker，你拥有Yarn，你拥有Spark、Tez、MapReduce，无论后面你拥有的是什么。你也可能会有具有不同优先级的池，很多东西都从那里出来。也许你在Paas上部署比如Java war文件时可以“自动缩放”，但是如果你希望使用Hadoop来做到这一点就比较特殊了。

此外，存储和数据处理是怎样互相影响的？有时候你可能需要临时扩大和分配存储。那么，我应该能够运行我的“按月结”批处理，使Docker自动部署所有的空间。然而，当我停止做这些工作时，系统应该取消部署它们，并去部署其它任何需要的资源。应用程序或工作负载应该不需要为此承担任何工作。

这不是我们今天的情况，我希望你喜欢写脚本。

大数据痛点 No.3：更糟糕的，NoSQL部署

为什么我可以使用SSH和sudo将Linux 沙箱打包成镜像、点击它们的Ambari、安装像Hadoop一样复杂的东西，但是，我们仍有必要为它适用于MongoDB和其它数据库而做点实际性的努力吗？当然可以，我可以写点脚本，但是我们为什么要这么做？

大数据痛点 No.4：Query 分析器/修改器

当我在JBoss工作的时候，我参与了很多有关Hibernate的工作，以及后面对JPA/EJB3的调整工作。这主要包括了查看日志、查找哪里出现了n+1式的查询并将其调整为joins查询、删除那些使性能低下的愚蠢缓存配置。

其它时候，它却是相反的：你在系统中添加了一个该死的表并且它一直无法返回。有时，在更复杂的系统中，我想查看一下Oracle企业管理器和它的分析报告，它竟然以一种滑稽搞笑急性怪异的语言描述，而这往往暗示了这些问题。然而，我经常看到两个表一起使用并明确这种模式。我甚至考虑对其编码。

现在，当我调整NoSQL系统的时候，我遇到了这个相同问题的不同变种：复杂查询中太多的坑，或者你的索引与where语句不匹配（范围合并）。总而言之，我们已经对运行的非常糟糕、复杂的查询进行了优化，但是我们从来没有置身于开发者之外来质疑这些查询。它看起来好像你可以这样建立，并对它说：“Hi，你发送了这些查询，我认为它们看起来应该……”

哦，我想一些事情能够被自动化处理完会应该会很有趣。我所能表达的是，非常庆幸我已经走到了食物链的更高层，这样我就没必要再做那些工作了。

大数据痛点 No.5：分布式代码优化

我希望我会开始看到Spark的No.4版，并具有uber功能和其它很多小功能，或者其它一些东西。在编译器中，你可以写个优化器来检测循环中可能出现的非依赖性操作，并自动抽出使它们并行化。我还未见到过分布式计算中非常显著的东西。“数据科学家”写的Python并不能很好的分配计算问题，并且有不必要的内存浪费。这时，需要更加厉害的技术人来理解他或她想要做什么，并手动优化它。

这些问题看起来就像你最喜欢的编译原理书中的技术。我猜想，Zeppelin或Spark下一步可能会帮助优化你糟糕的代码，使得它能在集群中更好的运行。

大数据痛点 No.6：De-distributor

我承认，我第一次了解Hadoop是在Hive中编写select count() from somesmalltable 开始的。我想”天啊，这个大坑”，你可以发现一些问题并且知道它们并未很好的分布，而且有一些你几乎不需要的附加数据（比如行数），分布它们没有任何意义。通常情况下，这些都是比较大的作业（比如查询表），但是无论是Hive、Spark、HDFS或YARN，假设都是所有问题都被分布计算。有些却需要尽可能的不被分布，因为在不是分布式的环境下它们能更快。我所说的是哑巴东西，像select from thousandrowtable 剔除了一个MapReduce作业。

大数据痛点 No.7：机器学习映射

有很多事例我可以告诉你，”Oh，这是一个聚类问题”或者“这是映射”或其它什么。但是，似乎还没有人完成对公共业务部分进行映射、描述问题并将其抽象为你会使用的算法的描述。

在金融之外，也许10%-30%的任何企业实际上是独有的——那就是，我可以将销售、营销、市场、库存、劳动力等映射成通用模型，然后描述算法来供使用。这个工作不仅能改变我们办公的方式，而且可以极大地扩展市场。将它看成是大数据的设计模式，只能更注重业务方面。

大数据痛点 No.8：安全

首先，为什么？为什么Kerberos是获得单点登录的唯一途径？云网络中没有Kerberos。（好吧，人们也都这么做，但是在Reddit 上仍然有个abacus的爱好者地盘。）

其次，奇怪的竞争者以对每个人不利的方式扭曲Hadoop。当涉及到基本的身份验证和授权时，为什么我需要两个完全不同的协议栈、它们不完全支持Hadoop的各个部分，而不是其它呢？好吧，竞争加密（更小、更快、更强）但无论是Ranger或Sentry或其它什么的，为什么不能有个涵盖了所有Hadoop项目的访问和授权机制？公平地说，这是NoSQL领域中比较糟糕的；每个2-bit”我们热爱开源”供应商通过长达100行或企业专有版本的LDAP集成部分来表明它们对开源的热爱。

大数据痛点 No.9：抽取，转换，加载

ETL是每个大数据项目预约的沉默杀手。你有事情要做，但是你要去写Flume、Oozie、Pig、Sqoop和Kettle。这也是你会在那里看到冗余的数据，因为数据在那里是凌乱的。但是没有人会对使这更加无缝有太多的愿景。这个问题不够性感，但是却是大问题。

在大数据技术中，什么是你最喜欢的“OMFSM修复已经”问题？

英文原文：9 big data pain points

推荐阅读

cmd
解决Docker中volume的权限问题的方法

在Docker中，将主机目录挂载到容器中作为volume使用时，常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法，包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法，可以避免在使用Docker时出现无写权限的情况。 ... [详细]

蜡笔小新 2023-12-14 18:48:02
cmd
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
cmd
容器技术的安全挑战与解决方案

本文探讨了容器技术在安全方面面临的挑战，并提出了相应的解决方案。多租户保护、用户访问控制、中毒的镜像、验证和加密、容器守护以及容器监控都是容器技术中需要关注的安全问题。通过在虚拟机中运行容器、限制特权升级、使用受信任的镜像库、进行验证和加密、限制容器守护进程的访问以及监控容器栈，可以提高容器技术的安全性。未来，随着容器技术的发展，还需解决诸如硬件支持、软件定义基础设施集成等挑战。 ... [详细]

蜡笔小新 2023-12-09 10:31:06
settings
大坑|左上角_pycharm连接服务器同步写代码(图文详细过程)

篇首语：本文由编程笔记#小编为大家整理，主要介绍了pycharm连接服务器同步写代码(图文详细过程)相关的知识，希望对你有一定的参考价值。pycharm连接服务 ... [详细]

蜡笔小新 2023-10-17 19:47:17
java
python打卡记录去重_Python零基础学习笔记与记录之一（了解Python这个小伙伴）

本人学习笔记，知识点均摘自于网络，用于学习和交流(如未注明出处，请提醒，将及时更正，谢谢)OS:我学习是为了上 ... [详细]

蜡笔小新 2023-10-17 16:05:58
bash
宋宝华：用systemd-nspawn运行最轻量级容器

systemd-nspawn可以创建最轻量级的容器（ns的意思就是namespace），本文的实验平台是Ubuntu16.04，x86_64机器。本文的目的是：在Ubuntu中用syst ... [详细]

蜡笔小新 2023-10-17 14:49:15
bash
架构升级给DolphScheduler带来2~3倍性能提升

引言大数据任务调度作为大数据建设中的核心基础设施，在经过社区用户们长期的使用中，不少用户对调度也提出了很多新的要求，为此，ApacheDolphinScheduler(Incub ... [详细]

蜡笔小新 2023-10-11 15:35:02
java
基于事件驱动的并发编程及其消息通信机制的同步与异步、阻塞与非阻塞、IO模型的分类

本文介绍了基于事件驱动的并发编程中的消息通信机制，包括同步和异步的概念及其区别，阻塞和非阻塞的状态，以及IO模型的分类。同步阻塞IO、同步非阻塞IO、异步阻塞IO和异步非阻塞IO等不同的IO模型被详细解释。这些概念和模型对于理解并发编程中的消息通信和IO操作具有重要意义。 ... [详细]

蜡笔小新 2023-12-13 19:32:09
java
计算机存储系统的层次结构及其优势

本文介绍了计算机存储系统的层次结构，包括高速缓存、主存储器和辅助存储器三个层次。通过分层存储数据可以提高程序的执行效率。计算机存储系统的层次结构将各种不同存储容量、存取速度和价格的存储器有机组合成整体，形成可寻址存储空间比主存储器空间大得多的存储整体。由于辅助存储器容量大、价格低，使得整体存储系统的平均价格降低。同时，高速缓存的存取速度可以和CPU的工作速度相匹配，进一步提高程序执行效率。 ... [详细]

蜡笔小新 2023-12-13 17:32:41
string
java命令运行

Java在运行已编译完成的类时，是通过java虚拟机来装载和执行的，java虚拟机通过操作系统命令JAVA_HOMEbinjava–option来启 ... [详细]

蜡笔小新 2023-12-12 19:26:55
string
Docker容器技术中限制容器对CPU的使用方法

本文介绍了在Docker容器技术中限制容器对CPU的使用的方法，包括使用-c参数设置容器的内存限额，以及通过设置工作线程数量来充分利用CPU资源。同时，还介绍了容器权重分配的情况，以及如何通过top命令查看容器在CPU资源紧张情况下的使用情况。 ... [详细]

蜡笔小新 2023-12-12 18:31:07
string
2020年计算机二级MSOffice选择习题及答案详解

本文介绍了2020年计算机二级MSOffice的选择习题及答案，详细解析了操作系统的五大功能模块，包括处理器管理、作业管理、存储器管理、设备管理和文件管理。同时，还解答了算法的有穷性的含义。 ... [详细]

蜡笔小新 2023-12-12 17:11:34
string
（九）Docker常用安装

一、总体步骤1、搜索镜像2、拉取镜像3、查看镜像4、启动镜像5、停止镜像6、移除镜像二、安装tomcat1、dockerhub上面查找tomcat镜像 dockersearchto ... [详细]

蜡笔小新 2023-10-17 18:10:49
string
Docker Data Center系列（四）离线安装UCP和DTR

DockerDataCenter系列（四）-离线安装UCP和DTR,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2023-10-17 17:40:43
java
在Docker中使用kettle遇到的问题解决

随着我司的应用都开始容器化，相应的ETL流程也需要迁移到容器中。常规的SQL和shell脚本迁移之后执行基本没有问题，主要的问题在于数据接入使用kettle的场景下，kettle启 ... [详细]

蜡笔小新 2023-10-17 17:21:53

你我她啊

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章