作者:CPA娇_588 | 来源:互联网 | 2023-09-23 12:30
介绍
AWS Redshift 是一种功能强大、PB 级、高度托管的基于云的数据仓库解决方案。它以艾字节(1018 字节)为单位处理和处理结构化和非结构化数据。Redshift 最常见的用例包括大规模数据迁移、日志分析、处理实时分析、连接多个数据源等等。
资料来源:https://www.blazeclan.com/blog/what-is-amazon-redshift-11-key-points-remember/
Redshift 是一个 OLAP(在线分析处理)数据库,可从海量数据中收集有价值的见解。它基于 PostgreSQL 标准,可以通过 ODBC 连接来连接 JDBC 客户端应用程序。大规模并行处理 (MPP) 技术、列式数据存储和用于数据压缩的多种编码方案等特性为 Redshift 提供了以更快的速度高效执行海量数据的优势。与许多其他 Amazon Web Services (AWS) 一样,只需单击几下即可部署 Redshift,并提供易于使用的界面。
本博客将讨论常见的面试问题,这些问题可能有助于您了解 Redshift 并为下一次面试做好准备。
RedShift 面试问题
Q1:AWS 中的 Redshift 是什么?
Amazon Web Service (AWS) Redshift 是云中完全托管的大数据仓库服务,其速度和功能足以处理和管理 EB 范围内的数据。Redshift 由 ParAccel 公司(后来被 Actian 收购)构建用于处理大规模数据集和数据库迁移。它采用海量并行处理(MPP)技术,提供经济高效的数据解决方案。Redshift 的著名用途是为企业和客户获取最新洞察。
Q2:使用 AWS Redshift 有什么好处?
AWS Redshift 提供的主要优势包括:
Q3:为什么使用 AWS Data Pipeline 将 CSV 加载到 Redshift?如何?
AWS Data Pipeline 有助于提取和加载 CSV(逗号分隔值)文件。使用 AWS Data Pipelines 加载 CSV 消除了构建复杂 ETL 系统的压力。它提供模板活动来有效地执行 DML(数据操作)任务。
要加载 CSV 文件,我们必须从主机源复制 CSV 数据并通过 RedshiftCopyActivity 将其粘贴到 Redshift。
Q4:如何在 Amazon Redshift 中列出表?
“显示表”关键字列出了 Amazon Redshift 中的表。它显示表模式以及表和列约束。句法:
SHOW TABLE [schema.]table_name
Q5:Amazon RDS、DynamoDB 和 Redshift 有何不同?
以下是主要区别:
数据库引擎
可用的 Amazon RDS 引擎包括 Oracle、MySQL、SQL Server、PostgreSQL 等,而 DynamoDB 引擎是 NoSQL,Amazon Redshift 支持 Redshift(适配 PostgreSQL)作为数据库引擎。
数据存储
RDS 支持每个实例 6 TB,Redshift 支持每个实例 16 TB,DynamoDB 提供无限存储。
主要用途
RDS 用于传统数据库,而 Redshift 以数据仓库着称 DynamoDB 是动态修改数据的数据库。
多可用区复制
RDS 充当附加服务,而 Redshift 的多可用区复制是手动的,而 DynamoDB 的多可用区复制是内置的。
Q6:与其他数据仓库技术相比,Redshift 在性能上要好多少?
Amazon Redshift 是最简单、最快的云数据仓库,它的性价比是其他数据仓库的 3 倍。Redshift 以相对适中的成本为数据集从千兆字节到艾字节的公司提供快速查询性能。
Q7:我们如何将数据加载到 Redshift 中?
有几种方法可以将数据加载到 Redshift 中,但常用的 3 种方法是:
Copy 命令用于将数据加载到 AWS Redshift。
使用 AWS 服务将数据加载到 Redshift。
使用 Insert 命令将数据加载到 Redshift。
Q8:什么是 Redshift Spectrum?Redshift Spectrum 支持哪些数据格式?
Redshift Spectrum 由 AWS(Amazon Web Services)作为 Amazon Redshift 的伴侣发布。它使用 Amazon Simple Storage Service (Amazon S3) 对数据湖中可用的数据运行 SQL 查询。Redshift Spectrum 有助于在 Amazon S3 中针对 GB 到 EB 的非结构化数据进行查询处理,并且在此过程中不需要 ETL 或加载。Redshift Spectrum 用于生成和优化查询计划。Redshift Spectrum 支持各种结构化和半结构化数据格式,包括 AVRO、TEXTFILE、RCFILE、PARQUET、SEQUENCE FILE、RegexSerDe、JSON、Geok、Ion 和 ORC。亚马逊建议使用 Apache PARQUET 等列数据格式来提高性能并降低成本。
Q9:Amazon Redshift 的价格会有什么变化?
Amazon Redshift 定价取决于客户选择的用于构建集群的节点类型。它主要提供两种在存储和计算方面不同的节点:
密集计算节点
这些优化的计算节点提供高达 244GB 的 RAM 和高达 2.5 TB 的 SSD。dc2.larges 的最低规格价格从每小时 0.25 美元到 0.37 美元不等,dc2.8x 的最高规格价格从每小时 4.8 美元到 7 美元不等。
密集存储节点
这些节点在两个版本中提供高存储容量 - 基本版本 (ds2.xlarge) 具有高达 2 TB 的硬盘驱动器和更高版本 (ds2.8xlarge) 具有高达 16 TB 的硬盘驱动器。基本版本的费用从每小时 0.85 美元到 1.4 美元不等,而更高版本的费用为 6 美元到 11 美元。
Q10:Amazon Redshift 有哪些限制?
由于 Web 应用程序的处理速度较慢,它不能用作实时应用程序数据库。
无法在 AWS Redshift 中对插入的数据强制执行唯一性。
它仅支持 Amazon EMR、关系 DynamoDB 和 Amazon S3 的并行加载。
结论
在这篇博客中,我们看到了一些可以在 AWS Redshift 面试中提出的重要面试问题。我们讨论了理论和实践问题的基本组合,但不是这样。该博客将使您对您期望的问题类型有一个基本的了解。但是,除了这些 Redshift 面试问题之外,还建议使用它;您还可以练习 SQL 命令,以加深对数据处理和转换的理解。上述 AWS Redshift 问题的主要内容是:
我们了解了 AWS 中的 Redshift 是什么以及它对用户有何好处。
我们已经了解了如何使用数据管道在 Redshift 中加载 CSV。
我们了解 Redshift 与 RDS 和 DynamoDB 的不同之处。
我们了解了如何显示表格。
我们还讨论了 Redshift Spectrum 的基础知识和 Redshift 的局限性。
原文标题:Top 10 AWS Redshift Interview Questions in 2022
原文作者:Shikha Gupta
原文链接:https://www.analyticsvidhya.com/blog/2022/07/top-10-aws-redshift-interview-questions-in-2022/