Qwiklab'实验Hadoop,IoT,IAM,KeyManagement'

作者：jzcpojwmds_652 | 来源：互联网 | 2023-09-16 13:13

title:AWS之Qwiklabsubtitle:1.Qwiklab实验-Hadoop,IoT,IAM,KeyManagementServicedate:2018-09-1917

title: AWS之Qwiklab
subtitle: 1. Qwiklab&＃39;实验-Hadoop, IoT, IAM, Key Management Service&＃39;
date: 2018-09-19 17:29:20
---

Analyze Big Data with Hadoop
使用Hadoop分析大数据

知识梳理

1. 定义与作用

Amazon EMR 是一个托管集群平台&＃xff0c;可简化在 AWS 上运行大数据框架 (如 Apache Hadoop 和 Apache Spark) 以处理和分析海量数据的操作。借助这些框架和相关的开源项目 (如 Apache Hive 和 Apache Pig)。处理用于分析目的的数据和商业智能工作负载。此外&＃xff0c;可以使用 Amazon EMR 转换大量数据和将大量数据移入和移出其他 AWS 数据存储和数据库&＃xff0c;如 Amazon Simple Storage Service (Amazon S3) 和 Amazon DynamoDB。

2. 大数据技术概述

随着数据的不断变大&＃xff0c;数据的处理就出现了瓶颈&＃xff1a;存储容量&＃xff0c;读写速率&＃xff0c;计算效率等等。为了处理大数据&＃xff0c;google打造了三驾马车&＃xff0c;MapReduce&＃xff0c;BigTable和GFS。世界人民为了抢占一席之地&＃xff0c;开源的Hadoop诞生了&＃xff01;

3. Hadoop概述

Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设&＃xff0c;即硬件故障是常见情况&＃xff0c;应该由框架自动处理。&＃xff08;wikipedia给出的定义&＃xff09;

4. Hadoop作用与优势

Hadoop主要完成两件事&＃xff0c;分布式存储和分布式计算。Hadoop能完成大数据的存储&＃xff0c;处理&＃xff0c;分析&＃xff0c;统计等业务&＃xff0c;在数据挖掘等方面应用广泛。
优势有三点&＃xff1a;一是高扩展性。简单的增加硬件就可以达到效果的提高。二是低成本&＃xff0c;用PC机就能做到。三是Hadoop具有成熟的生态圈&＃xff0c;比如Hive&＃xff0c;Hbase&＃xff0c;zookeeper等&＃xff0c;让Hadoop用起来更方便。

5. Hadoop核心

hadoop分为hadoop1.X和hadoop2.X&＃xff0c;并且还有hadoop生态系统。Hadoop的核心是mapreduce和hdfs。
具体不作详细讨论。

领域	样本数据	定义
日期	2017年7月5日	事件发生的日期。
时间	20时05分47秒	CloudFront服务器完成对请求的响应时间&＃xff08;UTC&＃xff09;。
边缘位置	SEA4	为请求提供服务的边缘位置。每个边缘位置由三字母代码和任意分配的数字标识&＃xff0c;例如DFW3。三字母代码通常对应于边缘位置附近的机场的国际航空运输协会机场代码。
字节	4261	CloudFront响应请求而向查看器提供的总字节数&＃xff0c;包括标头。
IP	10.0.0.15	发出请求的查看者的IP地址。
方法	得到	HTTP访问方法&＃xff1a;DELETE&＃xff0c;GET&＃xff0c;HEAD&＃xff0c;OPTIONS&＃xff0c;PATCH&＃xff0c;POST或PUT。
主办	abcd.cloudfront.net	CloudFront分配的域名。
URI	/test-image-2.jpeg	URI的一部分&＃xff0c;用于标识路径和对象
状态	200	HTTP状态代码&＃xff08;例如200 &＃61;成功&＃xff09;。
介绍人	-	发起请求的域的名称。
用户代理	Mozilla的/ 5.0 ...	User-Agent标头标识请求的来源&＃xff0c;例如提交请求的设备和浏览器的类型&＃xff0c;如果请求来自搜索引擎&＃xff0c;则标识哪个搜索引擎。

Introduction to AWS Internet-of-Things (IoT)
AWS物联网&＃xff08;IoT&＃xff09;简介

知识梳理

1. 定义与作用

AWS物联网&＃xff08;loT&＃xff09;是一个托管云平台&＃xff0c;可让连接的设备轻松安全地与云应用程序和其他设备进行交互。AWS loT可以支持数十亿台设备和数万亿条消息&＃xff0c;并可以可靠安全地处理和路由这些消息到AWS端点和其他设备。借助AWS loT&＃xff0c;应用程序可以随时跟踪所有设备并与之通信&＃xff0c;即使它们未连接也是如此。

2. AWS IoT定义

AWS IoT 可在连接了 Internet 的设备 (如传感器、致动器、嵌入式微控制器或智能设备) 与 AWS 云之间提供安全的双向通信。客户能从多台设备收集遥测数据&＃xff0c;然后存储和分析数据。也可以创建令用户能够通过手机或平板电脑控制这些设备的应用程序。

3. AWS IoT组件

组件

4. 示例

发布/订阅模式如何与AWS IoT配合使用

cd simulator aws iot create-keys-and-certificate --set-as-active \ --certificate-pem-outfile certs/certificate.pem.crt \ --public-key-outfile certs/public.pem.key \ --private-key-outfile certs/private.pem.key \ --region us-west-2 解释&＃xff1a; 创建证书和密钥将证书和密钥设置为活动状态将证书和密钥的内容输出到~/simulator/certs/

Introduction to AWS Identity and Access Management (IAM)
AWS身份和访问管理&＃xff08;IAM&＃xff09;简介

知识梳理

1. 定义与作用

AWS身份和访问管理&＃xff08;IAM&＃xff09;是一项Web服务&＃xff0c;使Amazon Web Services&＃xff08;Aws&＃xff09;客户能够在AWS中管理用户和用户权限。借助IAM&＃xff0c;您可以集中管理用户、诸如访问密钥之类的安全凭证以及控制用户可以访问哪些AWS资源的权限。

2. AWS身份和访问管理&＃xff08;IAM&＃xff09;具体作用

管理IAM用户及其访问权限&＃xff1a;创建用户并为其分配单独的安全凭证&＃xff08;访问密钥&＃xff0c;密码和多重身份验证设备&＃xff09;。管理权限以控制用户可以执行的操作。
管理IAM角色及其权限&＃xff1a;lAM角色与用户类似&＃xff0c;因为它是具有权限策略的AWS身份&＃xff0c;用于确定身份在AWS中可以做什么和不能做什么。但是&＃xff0c;角色不是与个人有唯一的关联&＃xff0c;而是由任何需要它的人来假设。
管理联盟用户及其权限&＃xff1a;通过信用身份联合&＃xff0c;以允许企业中的现有用户访问AWS管理控制台&＃xff0c;调用AWS API和访问资源&＃xff0c;而无需为每个身份创建IAM用户。

IAM组权限策略&＃xff08;EC2-Support&＃xff09;托管策略代码块&＃xff1a; AmazonEC2ReadOnlyAccess&＃xff1a;{"Version": "2012-10-17","Statement": [{"Effect": "Allow", //权限"Action": "ec2:Describe*", //针对AWS服务进行API调用"Resource": "*" //资源定义规则所涵盖的实体范围&＃xff08;如特定Amazon S3存储桶/Amazon EC2实例/ *表示任何资源&＃xff09;},{"Effect": "Allow","Action": "elasticloadbalancing:Describe*","Resource": "*"},{"Effect": "Allow","Action": ["cloudwatch:ListMetrics","cloudwatch:GetMetricStatistics","cloudwatch:Describe*"],"Resource": "*"},{"Effect": "Allow","Action": "autoscaling:Describe*","Resource": "*"}] }IAM组权限策略&＃xff08;EC2-Support&＃xff09;内联策略代码块&＃xff1a; EC2-Admin-Policy&＃xff1a;{"Version": "2012-10-17","Statement": [{"Action": ["ec2:Describe*","ec2:StartInstances","ec2:StopInstances"],"Resource": ["*"],"Effect": "Allow"}] }

Introduction to AWS Key Management Service
AWS Key Management Service简介

知识梳理

1. 定义与作用

AWS Key Management Service (AWS KMS) 是一项托管服务&＃xff0c;可让用户轻松创建和控制用于加密数据的加密密钥。在 AWS KMS 中创建的主密钥受 FIPS 140-2 验证加密模块保护。

2. 对称和非对称加密

对称加密算法

3. AWS Key Management Service&＃xff08;AWS　KMS&＃xff09;用法

身份验证和访问控制

4. AWS 服务如何使用 AWS KMS

许多 AWS 服务使用 AWS KMS 来对数据加密提供支持。如果某项 AWS 服务与 AWS KMS 相集成&＃xff0c;您即可使用您账户中的客户主密钥 (CMK) 保护该服务为您接收、存储或管理的数据。有关与 AWS KMS 集成的 AWS 服务的完整列表&＃xff0c;请参阅 AWS 服务集成。
以下主题详细讨论了特定服务如何使用 AWS KMS (包括其支持的 CMK)、这些服务如何管理数据密钥、所需的权限、以及如何跟踪您账户中每项服务使用 CMK 的情况。
主题

AWS CloudTrail
Amazon DynamoDB
Amazon Elastic Block Store(Amazon EBS)
Amazon Elastic Transcoder
Amazon EMR
Amazon Redshift
Amazon Relational Database Service (Amazon RDS)
AWS Secrets Manager
Amazon Simple Email Service (Amazon SES)
Amazon Simple Storage Service (Amazon S3)
AWS Systems Manager Parameter Store
Amazon WorkMail
Amazon WorkSpaces

密钥策略 {"Version": "2012-10-17","Id": "key-consolepolicy-3","Statement": [{"Sid": "Enable IAM User Permissions","Effect": "Allow","Principal": {"AWS": "arn:aws:iam::824333991948:root"},"Action": "kms:*","Resource": "*"},{"Sid": "Allow access for Key Administrators","Effect": "Allow","Principal": {"AWS": "arn:aws:iam::824333991948:user/awsstudent"},"Action": ["kms:Create*","kms:Describe*","kms:Enable*","kms:List*","kms:Put*","kms:Update*","kms:Revoke*","kms:Disable*","kms:Get*","kms:Delete*","kms:TagResource","kms:UntagResource","kms:ScheduleKeyDeletion","kms:CancelKeyDeletion"],"Resource": "*"},{"Sid": "Allow use of the key","Effect": "Allow","Principal": {"AWS": "arn:aws:iam::824333991948:user/awsstudent"},"Action": ["kms:Encrypt","kms:Decrypt","kms:ReEncrypt*","kms:GenerateDataKey*","kms:DescribeKey"],"Resource": "*"},{"Sid": "Allow attachment of persistent resources","Effect": "Allow","Principal": {"AWS": "arn:aws:iam::824333991948:user/awsstudent"},"Action": ["kms:CreateGrant","kms:ListGrants","kms:RevokeGrant"],"Resource": "*","Condition": {"Bool": {"kms:GrantIsForAWSResource": "true"}}}] }

转:https://www.cnblogs.com/gunxiaoshi/p/11051616.html

推荐阅读

web
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
window
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
window
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
int
Spark 弹性分布式数据集详解

本文详细介绍了 Spark 中的弹性分布式数据集（RDD）及其常见的操作方法，包括 union、intersection、cartesian、subtract、join、cogroup 等转换操作，以及 count、collect、reduce、take、foreach、first、saveAsTextFile 等行动操作。 ... [详细]

蜡笔小新 2024-11-14 15:44:57
int
日志处理流程：Flume+MapReduce+Hive+Sqoop+MySQL

本文介绍了如何使用Flume从Linux文件系统收集日志并存储到HDFS，然后通过MapReduce清洗数据，使用Hive进行数据分析，并最终通过Sqoop将结果导出到MySQL数据库。 ... [详细]

蜡笔小新 2024-11-13 18:47:34
object
深入解析：存储技术的演变与发展

本文探讨了从单机文件系统到分布式文件系统的存储技术发展过程，详细解释了各种存储模型及其特点。 ... [详细]

蜡笔小新 2024-11-19 11:25:40
int
MapReduce 中的输入输出格式控制

本文介绍了如何在 MapReduce 作业中使用 SequenceFileOutputFormat 生成 SequenceFile 文件，并详细解释了 SequenceFile 的结构和用途。 ... [详细]

蜡笔小新 2024-11-17 14:43:42
int
Hadoop 架构详解：核心组件解析

本文介绍了Hadoop的核心组件，包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]

蜡笔小新 2024-11-16 12:13:59
int
大数据领域的职业路径与角色解析

本文将深入探讨大数据领域的各种职业和工作角色，帮助读者全面了解大数据行业的需求、市场趋势，以及从入门到高级专业人士的职业发展路径。文章还将详细介绍不同公司对大数据人才的需求，并解析各岗位的具体职责、所需技能和经验。 ... [详细]

蜡笔小新 2024-11-16 08:54:03
int
HDFS API

Hadoop的文件操作位于包org.apache.hadoop.fs里面，能够进行新建、删除、修改等操作。比较重要的几个类：(1)Configurati ... [详细]

蜡笔小新 2024-11-13 17:31:50
split
Spark与HBase结合处理大规模流量数据结构设计

本文将详细介绍如何利用Spark和HBase进行大规模流量数据的分析与处理，包括数据结构的设计和优化方法。 ... [详细]

蜡笔小新 2024-11-12 19:49:05
include
Presto：高效即席查询引擎的深度解析与应用

本文深入解析了Presto这一高效的即席查询引擎，详细探讨了其架构设计及其优缺点。Presto通过内存到内存的数据处理方式，显著提升了查询性能，相比传统的MapReduce查询，不仅减少了数据传输的延迟，还提高了查询的准确性和效率。然而，Presto在大规模数据处理和容错机制方面仍存在一定的局限性。本文还介绍了Presto在实际应用中的多种场景，展示了其在大数据分析领域的强大潜力。 ... [详细]

蜡笔小新 2024-11-07 19:17:47
include
2012年9月12日优酷土豆校园招聘笔试题目解析与备考指南

2012年9月12日，优酷土豆校园招聘笔试题目解析与备考指南。在选择题部分，有一道题目涉及中国人的血型分布情况，具体为A型30%、B型20%、O型40%、AB型10%。若需确保在随机选取的样本中，至少有一人为B型血的概率不低于90%，则需要选取的最少人数是多少？该问题不仅考察了概率统计的基本知识，还要求考生具备一定的逻辑推理能力。 ... [详细]

蜡笔小新 2024-11-06 15:25:14
int
第二章：Kafka基础入门与核心概念解析

本章节主要介绍了Kafka的基本概念及其核心特性。Kafka是一种分布式消息发布和订阅系统，以其卓越的性能和高吞吐量而著称。最初，Kafka被设计用于LinkedIn的活动流和运营数据处理，旨在高效地管理和传输大规模的数据流。这些数据主要包括用户活动记录、系统日志和其他实时信息。通过深入解析Kafka的设计原理和应用场景，读者将能够更好地理解其在现代大数据架构中的重要地位。 ... [详细]

蜡笔小新 2024-11-06 11:10:03
int
美团优选推荐系统架构师 L7/L8：算法与工程深度融合

美团优选推荐系统架构师 L7/L8：算法与工程深度融合 ... [详细]

蜡笔小新 2024-11-05 19:10:28