当前位置: 开发笔记 > 编程语言 > 正文

Cloudera认证_开发者考试大纲

作者：shao4224 | 来源：互联网 | 2023-06-27 07:31

cca175开发者认证有10至12条题目，主要是基于cdh5的操作题。要想通过此考试，需要掌握以下基本技能：1.获取数据的能力这需要我们掌

cca175开发者认证有10至12条题目，主要是基于cdh5的操作题。

要想通过此考试，需要掌握以下基本技能：

1.获取数据的能力

这需要我们掌握sqoop的etl命令，flume的数据采集方式，以及如何使用hdfs的命令行加载数据。

2.数据规划，传输，存储的能力

使用spark读取hdfs上的数据，并进行一些基本的处理操作，将结果再返回到hdfs上，使用spark，我们不仅需要会用scala语言，也需要会python语言。

读取文件数据，对数据进行计算等等。

3.数据分析的能力

使用ddl语言对数据进行建表操作。建表的内容包括了建内部表，外部表，分区表，指定存储格式，指定分隔符，基于schema文件建表等。

这些都是非常基础的内容。多练即可。

CCA Spark and Hadoop Developer Exam (CCA175)

Number of Questions: 10–12 performance-based (hands-on) tasks on CDH5 cluster. See below for full cluster configuration

Time Limit: 120 minutes

Passing Score: 70%

Language: English, Japanese (forthcoming)

Required Skills

Data Ingest

The skills to transfer data between external systems and your cluster. This includes the following:

· Import data from a MySQL database into HDFS using Sqoop

· Export data to a MySQL database from HDFS using Sqoop

· Change the delimiter and file format of data during import using Sqoop

· Ingest real-time and near-real time (NRT) streaming data into HDFS using Flume

· Load data into and out of HDFS using the Hadoop File System (FS) commands

Transform, Stage, Store

Convert a set of data values in a given format stored in HDFS into new data values and/or a new data format and write them into HDFS. This includes writing Spark applications in both Scala and Python:

· Load data from HDFS and store results back to HDFS using Spark

· Join disparate datasets together using Spark

· Calculate aggregate statistics (e.g., average or sum) using Spark

· Filter data into a smaller dataset using Spark

· Write a query that produces ranked or sorted data using Spark

Data Analysis

Use Data Definition Language (DDL) to create tables in the Hive metastore for use by Hive and Impala.

· Read and/or create a table in the Hive metastore in a given schema

· Extract an Avro schema from a set of datafiles using avro-tools

· Create a table in the Hive metastore using the Avro file format and an external schema file

· Improve query performance by creating partitioned tables in the Hive metastore

· Evolve an Avro schema by changing JSON files

推荐阅读

default
Python 使用 DOM 和 SAX 解析 XML 的应用实例

本文介绍如何使用 Python 的 DOM 和 SAX 方法解析 XML 文件，并通过示例展示了如何动态创建数据库表和处理大量数据的实时插入。 ... [详细]

蜡笔小新 2024-11-12 16:10:39
email
使用Python和smtplib实现邮件发送功能

本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件，并提供了完整的代码示例。作者：多测师_王sir，时间：2020年5月20日 17:24，微信：15367499889，公司：上海多测师信息有限公司。 ... [详细]

蜡笔小新 2024-11-12 12:21:27
future
利用Python Paramiko库批量更新多台服务器的登录密码

本文介绍了如何使用Python的Paramiko库批量更新多台服务器的登录密码。通过示例代码展示了具体实现方法，确保了操作的高效性和安全性。Paramiko库提供了强大的SSH2协议支持，使得远程服务器管理变得更加便捷。此外，文章还详细说明了代码的各个部分，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-11 19:17:23
python
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
web
深入浅出 webpack 系列（二）：实现 PostCSS 代码的编译与优化

在前一篇文章中，我们探讨了如何通过基础配置使 Webpack 完成 ES6 代码的编译。本文将深入讲解如何利用 Webpack 实现 PostCSS 代码的编译与优化，包括配置相关插件和加载器，以提升开发效率和代码质量。我们将详细介绍每个步骤，并提供实用示例，帮助读者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-11-10 08:43:39
python
使用 ListView 浏览安卓系统中的回收站文件

使用 ListView 浏览安卓系统中的回收站文件 ... [详细]

蜡笔小新 2024-11-09 16:34:55
python
使用 Python 封装依赖方法构建测试用例的依赖关系

本文介绍如何通过 Python 的 `unittest` 和 `functools` 模块封装一个依赖方法，用于管理测试用例之间的依赖关系。该方法能够确保在某个测试用例失败时，依赖于它的其他测试用例将被跳过。 ... [详细]

蜡笔小新 2024-11-13 10:42:38
rsa
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02
rsa
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
filter
Python 忽略警告和错误的方法详解

本文详细介绍了如何在 Python 中忽略警告和错误，提供了多种实现方法，并解释了其背后的原理。对于希望提高代码健壮性和可读性的开发者来说，这些方法非常实用。 ... [详细]

蜡笔小新 2024-11-12 10:06:17
python
【Python 实战：汇率转换器 v1.02】

本项目通过Python编程实现了一个简单的汇率转换器v1.02。主要内容包括：1. Python的基本语法元素：（1）缩进：用于表示代码的层次结构，是Python中定义程序框架的唯一方式；（2）注释：提供开发者说明信息，不参与实际运行，通常每个代码块添加一个注释；（3）常量和变量：用于存储和操作数据，是程序执行过程中的重要组成部分。此外，项目还涉及了函数定义、用户输入处理和异常捕获等高级特性，以确保程序的健壮性和易用性。 ... [详细]

蜡笔小新 2024-11-11 16:34:26
web
Python错误重试让多少开发者头疼？高效解决方案出炉

### 优化后的摘要在处理 Python 开发中的错误重试问题时，许多开发者常常感到困扰。为了应对这一挑战，`tenacity` 库提供了一种高效的解决方案。首先，通过 `pip install tenacity` 安装该库。使用时，可以通过简单的规则配置重试策略。例如，可以设置多个重试条件，使用 `|`（或）和 `&`（与）操作符组合不同的参数，从而实现灵活的错误重试机制。此外，`tenacity` 还支持自定义等待时间、重试次数和异常处理，为开发者提供了强大的工具来提高代码的健壮性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 10:33:20
plugins
优化Hadoop 2.7.2源代码以支持Snappy压缩和解压功能的Native编译

为了在Hadoop 2.7.2中实现对Snappy压缩和解压功能的原生支持，本文详细介绍了如何重新编译Hadoop源代码，并优化其Native编译过程。通过这一优化，可以显著提升数据处理的效率和性能。此外，还探讨了编译过程中可能遇到的问题及其解决方案，为用户提供了一套完整的操作指南。 ... [详细]

蜡笔小新 2024-11-09 19:45:36
heap
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47

shao4224

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章