热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

WindowsAzureHDInsight现已正式发布!

今天,我们宣布正式发布WindowsAzureHDInsight服务。HDInsight是Microsoft提供的基于Hadoop的服务,为云提供100

今天,我们宣布正式发布 Windows Azure HDInsight 服务。HDInsight 是 Microsoft 提供的基于 Hadoop 的服务,为云提供 100% 的 Apache Hadoop 解决方案。

HDInsight 具有以下优势:

·   通过熟悉的工具洞察:通过与 Microsoft BI 工具(如 PowerPivot、Power View)进行深度集成,HDInsight 使您可以利用 Hadoop 轻松找到洞察数据信息。实现 HDInsight 等多个源的数据与 Power Query 的无缝结合。在 Excel 2013 中,使用全新的 3D 地图工具 Power Map 轻松将您的数据显示在地图上。

·   灵活性:HDInsight 可提供灵活性,以满足组织不断变化的需求。丰富的 Powershell 脚本将 Hadoop 群集的部署和配置时间由数小时甚至数天减少到几分钟。如果您需要更大的群集,仅需删除您的群集并创建一个更大的群集即可,这一过程只需几分钟时间,而且不会丢失任何数据。

·   企业级 Hadoop:HDInsight 具有企业级的安全性和可管理性。得益于专用 Secure Node,HDInsight 有助于更好地保护您的 Hadoop 群集。此外,我们还通过 PowerShell 脚本的扩展支持简化了 Hadoop 群集的管理。

·   丰富的开发人员体验:HDInsight 提供强大的编程功能及多个语言选项,包括 .NET、Java 以及其他语言。.NET 开发人员可将 LINQ 的语言集成查询的全部功能运用到 Hive 中。

HDInsight 入门

通过单击新建按钮并从 Data Services 菜单中选择 HDInsight,可从 Windows Azure 管理门户创建 HDInsight 群集。要创建 HDInsight 群集,请指定群集名称、群集大小(即数据节点数)和登录密码。

群集必须至少具有一个与其关联的存储帐户,以作为群集的永久存储机制,并且创建群集的区域始终与选择的存储帐户相同。正式发布时,存储帐户必须位于美国西部、美国东部或北欧才能与 HDInsight 群集相关联。可通过自定义创建选项将其他存储帐户与群集关联起来。

部署和配置群集将需要几分钟时间,准备就绪后您将看到一个开始屏幕,其中提供有关其他帮助内容的链接以及使用 HDInsight 运行第一个 Hadoop 作业的一些示例代码。

如果您在群集的 HDInsight 页上选择仪表板选项卡,您将看到以下屏幕,屏幕上提供了有关群集当前状态的一些基本信息,包括使用的内核数、作业历史记录以及链接到的存储帐户。

提交第一个 Map Reduce 作业

在提交第一个作业之前,必须先准备好开发环境以使用 HDInsight PowerShell cmdlet。PowerShell cmdlet 需要安装和配置以下两个主要组件:Windows Azure Powershell 和 HDInsight PowerShell 工具。按照开始屏幕步骤 1 中的链接设置您的环境。

开始页面上的屏幕显示了用于提交 Hive 或 MapReduce 作业的命令示例。现在,我们首先提交 MapReduce 作业。

使用这些命令来运行示例,以创建作业定义。作业定义包含有关作业的所有信息,例如要使用的映射程序和化简程序、用作输入的数据以及存储输出的位置。在此示例中,我们将使用群集中包含的示例 MapReduce 程序和示例文件。我们将在示例目录中创建一个输出目录来存储结果。

$jarFile= "/example/jars/hadoop-examples.jar"

$className= "wordcount"

$statusDirectory= "/samples/wordcount/status"

$outputDirectory= "/samples/wordcount/output"

$inputDirectory= "/example/data/gutenberg"

$wordCount= New-AzureHDInsightMapReduceJobDefinition -JarFile $jarFile -ClassName

$className-Arguments $inputDirectory, $outputDirectory -StatusFolder$statusDirectory 

运行这些命令以获取订阅信息并开始执行 MapReduce 程序。MapReduce 作业通常要运行较长时间,因此示例中显示了如何使用异步命令开始执行作业。

$subscriptionId= (Get-AzureSubscription -Current).SubscriptionId

$wordCountJob= $wordCount | Start-AzureHDInsightJob -Cluster HadoopIsAwesome -

Subscription$subscriptionId  | Wait-AzureHDInsightJob -Subscription $subscriptionId

最后,运行此命令以检索执行结果并在 PowerShell 命令行中显示这些结果。

Get-AzureHDInsightJobOutput-Subscription (Get-AzureSubscription -Current).SubscriptionId -

Clusterbc-newhdstorage -JobId $wordCountJob.JobId –StandardError

MapReduce 作业的结果是有关作业执行的信息,如下所示。

作业输出位于存储帐户的“/samples/wordcount/output”目录中。在 Windows Azure 门户中打开存储查看器并导航到该文件,以下载并查看输出文件。

提交第一个 Hive 作业

开始页面上的屏幕显示了用于连接到您的群集并提交 Hive 作业的命令示例。单击 Job type 部分的 Hive 按钮查看示例。

现在通过在 PowerShell 中执行以下命令来运行此示例,以连接到您的群集。

Use-AzureHDInsightClusterHadoopIsAwesome (Get-AzureSubscription -Current).SubscriptionID

接下来运行以下命令,将 HiveQL 语句提交到群集。该语句使用创建时在群集上默认设置的示例 Hive 表。

Invoke-Hive"select country, state, count(*) as records from hivesampletable group bycountry, state order by records desc limit 5"

该查询是一个相当简单的 select-groupby 操作,完成后将在 PowerShell 命令行中显示结果。

了解更多

在本博客中,我们向您展示了启动和运行 HDInsight 群集并对数据进行分析有多么简单。您还可以进一步了解有关 HDInsight 的其他信息,如上传自己的数据集、运行复杂的作业以及对结果进行分析。 有关使用 HDInsight 的更多详细信息,请访问 HDInsight 文档页或使用以下链接直接访问帮助文章。

·   HDInsight 服务入门

·   配置 HDInsight 群集

·   以编程方式提交 Hadoop 作业

·   使用 Power Query 将 Excel 连接到 Windows Azure HDInsight

有关定价的详细信息,请访问 HDInsight 定价详细信息页。

本文翻译自:

http://blogs.msdn.com/b/windowsazure/archive/2013/10/28/windows-azure-hdinsight-is-now-generally-available.aspx

转:https://www.cnblogs.com/wuwa/p/6192021.html



推荐阅读
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
  • 本文介绍了win7系统休眠功能无法启动和关闭的解决方法,包括在控制面板中启用休眠功能、设置系统休眠的时间、通过命令行定时休眠、手动进入休眠状态等方法。 ... [详细]
  • 本文介绍了Windows Vista操作系统中的用户账户保护功能,该功能是为了增强系统的安全性而设计的。通过对Vista测试版的体验,可以看到系统在安全性方面的进步。该功能的引入,为用户的账户安全提供了更好的保障。 ... [详细]
  • 目录浏览漏洞与目录遍历漏洞的危害及修复方法
    本文讨论了目录浏览漏洞与目录遍历漏洞的危害,包括网站结构暴露、隐秘文件访问等。同时介绍了检测方法,如使用漏洞扫描器和搜索关键词。最后提供了针对常见中间件的修复方式,包括关闭目录浏览功能。对于保护网站安全具有一定的参考价值。 ... [详细]
  •     这里使用自己编译的hadoop-2.7.0版本部署在windows上,记得几年前,部署hadoop需要借助于cygwin,还需要开启ssh服务,最近发现,原来不需要借助cy ... [详细]
  • 如何去除Win7快捷方式的箭头
    本文介绍了如何去除Win7快捷方式的箭头的方法,通过生成一个透明的ico图标并将其命名为Empty.ico,将图标复制到windows目录下,并导入注册表,即可去除箭头。这样做可以改善默认快捷方式的外观,提升桌面整洁度。 ... [详细]
  • HDFS2.x新特性
    一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]
  • 如何在服务器主机上实现文件共享的方法和工具
    本文介绍了在服务器主机上实现文件共享的方法和工具,包括Linux主机和Windows主机的文件传输方式,Web运维和FTP/SFTP客户端运维两种方式,以及使用WinSCP工具将文件上传至Linux云服务器的操作方法。此外,还介绍了在迁移过程中需要安装迁移Agent并输入目的端服务器所在华为云的AK/SK,以及主机迁移服务会收集的源端服务器信息。 ... [详细]
  • 本文介绍了如何使用C#制作Java+Mysql+Tomcat环境安装程序,实现一键式安装。通过将JDK、Mysql、Tomcat三者制作成一个安装包,解决了客户在安装软件时的复杂配置和繁琐问题,便于管理软件版本和系统集成。具体步骤包括配置JDK环境变量和安装Mysql服务,其中使用了MySQL Server 5.5社区版和my.ini文件。安装方法为通过命令行将目录转到mysql的bin目录下,执行mysqld --install MySQL5命令。 ... [详细]
  • 解决github访问慢的问题的方法集锦
    本文总结了国内用户在访问github网站时可能遇到的加载慢的问题,并提供了解决方法,其中包括修改hosts文件来加速访问。 ... [详细]
  • 本文介绍了Composer依赖管理的重要性及使用方法。对于现代语言而言,包管理器是标配,而Composer作为PHP的包管理器,解决了PEAR的问题,并且使用简单,方便提交自己的包。文章还提到了使用Composer能够避免各种include的问题,避免命名空间冲突,并且能够方便地安装升级扩展包。 ... [详细]
  • 本文介绍了一种轻巧方便的工具——集算器,通过使用集算器可以将文本日志变成结构化数据,然后可以使用SQL式查询。集算器利用集算语言的优点,将日志内容结构化为数据表结构,SPL支持直接对结构化的文件进行SQL查询,不再需要安装配置第三方数据库软件。本文还详细介绍了具体的实施过程。 ... [详细]
  • 如何实现JDK版本的切换功能,解决开发环境冲突问题
    本文介绍了在开发过程中遇到JDK版本冲突的情况,以及如何通过修改环境变量实现JDK版本的切换功能,解决开发环境冲突的问题。通过合理的切换环境,可以更好地进行项目开发。同时,提醒读者注意不仅限于1.7和1.8版本的转换,还要适应不同项目和个人开发习惯的需求。 ... [详细]
  • Tomcat安装与配置教程及常见问题解决方法
    本文介绍了Tomcat的安装与配置教程,包括jdk版本的选择、域名解析、war文件的部署和访问、常见问题的解决方法等。其中涉及到的问题包括403问题、数据库连接问题、1130错误、2003错误、Java Runtime版本不兼容问题以及502错误等。最后还提到了项目的前后端连接代码的配置。通过本文的指导,读者可以顺利完成Tomcat的安装与配置,并解决常见的问题。 ... [详细]
  • Linux Shell脚步的格式
    Shell脚步等多个命令的组合,可以做成一个shell文件(1.sh)赋权执行执行命令的方式前两张新的进程中执行,对当前进程不产生影响(cdtmp;pwds ... [详细]
author-avatar
杨幂-real-perfectpb_852
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有