简单之极，搭建属于自己的DataMining环境（Spark版本）

作者：壹花壹浄土 | 来源：互联网 | 2023-08-29 16:14

编者按：本文作者汪榕曾写过一篇文章：《以什么姿势进入数据挖掘会少走弯路》，是对想入行大数据的读者的肺腑之言，其中也表达了作者

编者按&＃xff1a;本文作者汪榕曾写过一篇文章&＃xff1a;《以什么姿势进入数据挖掘会少走弯路》&＃xff0c;是对想入行大数据的读者的肺腑之言&＃xff0c;其中也表达了作者的一些想法&＃xff0c;希望大家不要随便去上没有结合业务的收费培训班课程&＃xff1b;而后&＃xff0c;他有了结合他本人的工作经验&＃xff0c;写一系列帮助大家进行实践学习课程文章的想法&＃xff0c;InfoQ也觉得这是件非常有意义的事情&＃xff0c;特别是对于大数据行业1-3年工作经验的人士&＃xff0c;或者是没有相关工作经验但是想入行大数据行业的人。课程的名称是“数据挖掘与数据产品的那些事”&＃xff0c;目的是&＃xff1a;1. 引导目标人群正确学习大数据挖掘与数据产品&＃xff1b;2. 协助代码能力薄弱的学习者逐渐掌握大数据核心编码技巧&＃xff1b;3. 帮助目标人群理解大数据挖掘生态圈的数据流程体系&＃xff1b;4. 分享大数据领域实践数据产品与数据挖掘开发案例&＃xff1b;5.交流大数据挖掘从业者职业规划和发展方向。这系列文章会在InfoQ上形成一个专栏&＃xff0c;本文是专栏的第一篇。

前言&＃xff1a;工欲善其事&＃xff0c;必先利其器。倘若不懂得构建一套大数据挖掘环境&＃xff0c;何来谈Data Mining&＃xff01;何来领悟“Data Mining Engineer”中的工程二字&＃xff01;也仅仅是在做数据分析相关的事罢了&＃xff01;此文来自于笔者在实践项目开发中的记录&＃xff0c;真心希望日后成为所有进入大数据领域挖掘工程师们的良心参考资料。下面是它的一些说明&＃xff1a;

它是部署在Windows环境&＃xff0c;在项目的实践开发过程中&＃xff0c;你将通过它去完成与集群的交互&＃xff0c;测试和发布&＃xff1b;\\t
你可以部署成使用MapReduce框架&＃xff0c;而本文主要优先采用Spark版本&＃xff1b;\\t
于你而言&＃xff0c;它更多意义在于提高你在个人主机上进行业务场景建模的效率&＃xff0c;方便你对算法模型进行测试和优化&＃xff0c;以及打包、提交任务。\\t
于我而言&＃xff0c;网络上各种鱼龙混杂的资料&＃xff0c;一方面是内容误导新人&＃xff0c;更缺乏资源整合&＃xff0c;一方面仅仅是搬运工&＃xff0c;缺乏实践项目中的开发经验&＃xff0c;有头无尾。这更是这篇文章的初衷。\

\
铺垫&＃xff1a;数据挖掘工程师是一个公司编制为数不多的岗位&＃xff08;你也许懂~&＃xff09;。对于新人&＃xff0c;如果它是你的目标&＃xff0c;你需要真正理解“挖掘”和“工程”的关联性和重要性&＃xff0c;缺一不可&＃xff1b;也希望你能区分它与分析师的差异性&＃xff1b;更期待你能够知晓这个岗位在数据产品里的角色性&＃xff0c;因为这些对于你如何去成为一位数据挖掘工程师来说&＃xff0c;很重要&＃xff01;
\

说完上面这些杂七杂八的伏笔&＃xff0c;下文我将深入仔细去引导你&＃xff0c;如何去搭建属于自己Spark版本的Data Mining环境&＃xff0c;以及某些环节在实践项目中开发的必要性。

第一步 &＃xff1a; Java安装和配置&＃xff08;1.7或者1.8&＃xff09;

理由&＃xff1a;这是必须要去部署的环境&＃xff0c;不解释。不过注意区分版本、以及个人主机是32位还是64位&＃xff1b;\\t
下载&＃xff1a;本文提供1.8版本的下载 &＃xff0c;其中32位下载&＃xff0c;64位下载&＃xff1b;\\t
安装配置&＃xff1a;\\t
- 1.【安装】&＃xff1a;点击软件进行安装&＃xff0c;按照引导步骤&＃xff0c;并指定安装目录&＃xff08;个人喜爱&＃xff09;&＃xff0c;本文选择默认安装路径&＃xff1b;\\t\t
  \\\t\t
  jdk安装路径
  \\t\t\\t\t
- 2.【配置】&＃xff1a;配置环境变量JAVA_HOME和路径PATH&＃xff0c;选择我的电脑\u0026gt;系统属性\u0026gt;高级系统设置\u0026gt;环境变量&＃xff1b;\\t\t
  \\\t\t
  环境变量设置
  \\\t\t
  a.新建JAVA_HOME&＃xff0c;为C:\\Program Files\\Java\\jdk1.8.0_20。
  \\t\tb.新建CLASSPATH&＃xff0c;为“.;%JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar;”
  \\t\tc.编辑Path&＃xff0c;添加“;%JAVA_HOME%/bin;%JAVA_HOME%/jre/bin”
  \\t\t\\t
\

考虑到有不少读者非软件专业&＃xff0c;因此这里没有一笔带过基本的软件安装。最终安装成功的显示如下所示&＃xff1a;

成功安装java的显示

第二步 &＃xff1a; IDE安装和配置&＃xff08;Eclipse或者Spring Tool Suite&＃xff09;

理由&＃xff1a;编写工程代码的集成环境&＃xff0c;也就是你写代码的地儿。注意IDE区分版本、以及个人主机是32位还是64位&＃xff1b;\\t
下载&＃xff1a;本文提供最新STS版本的下载 &＃xff0c;其中32位下载&＃xff0c;64位下载。也可以使用Eclipse或SBT&＃xff1b;\\t
安装配置&＃xff1a;\\t
- 1.将安装包下载放在选定目录&＃xff0c;进行解压就可以了&＃xff0c;并创建桌面快捷方式&＃xff0c;方便以后使用&＃xff1b;\\t
\

STS解压后应用程序

在后期使用IDE时&＃xff0c;考虑到个人有代码洁癖&＃xff0c;因此&＃xff0c;我都推荐先设置好这几点&＃xff1a;a.字体大小和类型&＃xff0c;b.缩进方式&＃xff0c;c.代码行数序号&＃xff1b;

第三步 &＃xff1a; IDE插件的加载

理由&＃xff1a;编写MapReduce/Spark工程需要的插件&＃xff0c;注意区分hadoop版本。\\t
下载&＃xff1a;本文提供hadoop2.6.0版本的插件 &＃xff0c;其中下载地址\\t
安装配置&＃xff1a;\\t
- 1.将Jar包放在STS目录&＃xff0c;位置于\\sts-bundle\\sts-3.8.1.RELEASE\\dropins下&＃xff1b;\\t
\

第四步 &＃xff1a; Maven的安装配置

理由&＃xff1a;开发实践数据挖掘项目&＃xff0c;更多采用Maven进行项目管理。\\t
下载&＃xff1a;本文提供两个版本的下载 &＃xff0c;其中3.3.3下载&＃xff0c;3.3.9下载\\t
安装配置&＃xff1a;\\t
- 1.将安装包解压放在指定目录&＃xff0c;设置全局变量M2_HOME和添加路径PATH&＃xff1b;\\t
\

MAVEN的全局变量和路径设置

Maven安装成功的显示

第五步 &＃xff1a; hadoop包的下载配置

理由&＃xff1a;代码执行过程中依赖hadoop的环境&＃xff0c;需要单独配置hadoop的执行路径。\\t
下载&＃xff1a;本文提供2.6.0版本的下载 &＃xff0c;其中下载地址\\t
安装配置&＃xff1a;\\t
- 1.将安装包解压放在指定目录&＃xff0c;设置全局变量HADOOP_HOME和添加路径PATH&＃xff1b;\\t
\

配置hadoop的全局变量和路径

第六步 &＃xff1a; hadoop插件的加载配置

理由&＃xff1a;代码执行过程中依赖hadoop的JAR插件&＃xff0c;需要单独编译或者下载&＃xff0c;放置在上述hadoop解压包的bin目录下。\\t
下载&＃xff1a;本文提供2.6.0版本的插件下载 &＃xff0c;其中32位&＃xff0c;64位\\t
安装配置&＃xff1a;\\t
- 1.将安装包解压放在指定目录&＃xff0c;将hadoop.dll和winutils.exe放在hadoop的bin目录下就可以了&＃xff1b;\\t
\

将hadoop插件放置于bin目录下

第七步 &＃xff1a; spark包的下载配置

理由&＃xff1a;代码执行过程中依赖spark的配置环境&＃xff0c;需要下载包放置在指定目录&＃xff0c;并设置全局变量和路径。\\t
下载&＃xff1a;本文提供spark-1.6.2-bin-hadoop2.6版本的插件下载 &＃xff0c;其中下载地址\\t
安装配置&＃xff1a;\\t
- 1.将安装包解压放在指定目录&＃xff0c;设置全局变量SPARK_HOME和添加路径PATH&＃xff1b;\\t
\

配置Spark的全局变量和路径

通过上述的安装&＃xff0c;可以通过下面的显示来验证是否成功

Spark配置成功的显示

第八步 &＃xff1a; scala环境的安装配置

理由&＃xff1a;代码执行过程中依赖scala的配置环境&＃xff0c;需要安装scala环境&＃xff0c;并设置全局变量和路径。\\t
下载&＃xff1a;本文提供三个版本的安装包下载 &＃xff0c;其中2.10.1&＃xff0c;2.10.4&＃xff0c;2.11.0\\t
安装配置&＃xff1a;\\t
- 1.将安装包安装在指定目录&＃xff0c;设置全局变量SCALA_HOME和添加路径PATH&＃xff0c;最终安装成功显示如下&＃xff1b;\\t
\

scala成功安装的显示图

第九步 &＃xff1a; scala ide集成插件的加载配置

理由&＃xff1a;IDE集成环境执行过程中依赖scala插件的相关JAR包&＃xff0c;需要单独下载相应版本的scala ide&＃xff0c;并将features和plugins目录下的文件都复制到上述STS集成环境下。\\t
下载&＃xff1a;本文提供两个版本的包下载 &＃xff0c;其中32位&＃xff0c;64位。\\t
安装配置&＃xff1a;\\t
- 1.将下载包解压&＃xff0c;复制features和plugins目录下的文件到\\sts-bundle\\sts-3.8.1.RELEASE\\ 下的同命名文件目录中去&＃xff1b;\\t
\

scala ide集成插件复制到sts指定目录

至此&＃xff0c;通过以上9个步骤的下载、安装和配置&＃xff0c;一个基于Windows的标配大数据挖掘环境就已经搭建好了。上面这些版本和链接都会在以后日子进行更新迭代&＃xff0c;有部署过程中遇到问题的小伙伴&＃xff0c;也可以积极将问题和截图发到评论里&＃xff0c;一起进行解决。

下面的内容&＃xff0c;本文就利用上述所有步骤部署的大数据挖掘环境做一个实践项目开发的流程&＃xff0c;后期文章中会更深入引导数据产品中的数据挖掘工程开发。让真正想踏入大数据圈子做数据挖掘的小伙伴们&＃xff0c;能够清楚自己目前应该做的事&＃xff0c;以及公司级别实践应用的场景。不脱节、不迷茫、不盲目&＃xff01;\

Step1&＃xff1a;创建MAVEN工程

创建Maven工程中的步骤一

创建Maven工程中的步骤二

Step2&＃xff1a;创建工程中的对象

创建Maven工程中的对象

创建成功显示图

Step3&＃xff1a;配置好pom.xml文件&＃xff0c;下载相关Spark依赖包

修改pom.xml文件&＃xff0c;添加工程依赖包坐标

Step4&＃xff1a;写一个朴素贝叶斯模型里涉及先验概率计算的逻辑&＃xff0c;后期深入的开发等着以后的文章吧&＃xff01;

(点击放大图像)

代码逻辑&＃xff0c;让大家看看模样

总结&＃xff1a;工欲善其事&＃xff0c;必先利其器&＃xff01;这句话里面有两层的逻辑&＃xff0c;一方面&＃xff0c;你在要踏入大数据挖掘领域的同时&＃xff0c;应该要学会部署一套上述这样的环境&＃xff0c;因为它对于你的模型工程开发、集群任务提交、数据产品项目开发、甚至是以后的模型优化重构&＃xff0c;都是至关重要&＃xff01;一方面&＃xff0c;我希望真正想学习大数据挖掘的小伙伴们&＃xff0c;要走一个正确的方向&＃xff0c;真正理解大数据生态圈的特点&＃xff0c;要致力于为数据产品提供源源不断的大数据挖掘体系而奋斗&＃xff0c;因为这事&＃xff0c;不仅仅是玩玩而已&＃xff01;&＃xff08;上述下载的版本和链接都会在以后的时间进行更新维护&＃xff09;。

作者介绍&＃xff1a;汪榕&＃xff0c;3年场景建模经验&＃xff0c;曾累计获得8次数学建模一等奖&＃xff0c;包括全国大学生国家一等奖&＃xff0c;在国内期刊发表过相关学术研究。两年电商数据挖掘实践&＃xff0c;负责开发精准营销产品中的用户标签体系。发表过数据挖掘相关的多篇文章。目前在互联网金融行业从事数据挖掘工作&＃xff0c;参与开发反欺诈实时监控系统。

推荐阅读

process
如何高效启动大数据应用之旅？

在前一篇文章中，我探讨了大数据的定义及其与数据挖掘的区别。本文将重点介绍如何高效启动大数据应用项目，涵盖关键步骤和最佳实践，帮助读者快速踏上大数据之旅。 ... [详细]

蜡笔小新 2024-11-04 18:30:38
java
基于JSP和SSM框架的超市收银系统毕业设计论文及源代码分析

本研究基于JSP和SSM框架开发了一套超市收银系统，旨在提升超市收银效率和管理便捷性。系统运行环境包括JDK 1.8、Tomcat 7.0、MySQL数据库以及HBuilderX（也可使用WebStorm）作为前端开发工具，后端开发则采用Eclipse（IntelliJ IDEA亦可）。该系统实现了商品管理、订单处理、库存管理和报表生成等核心功能，具有良好的稳定性和扩展性。通过详细的设计与实现过程，本文为相关领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-09 13:41:56
config
Hadoop 2.6 日志文件解析与MapReduce日志管理深入探讨

Hadoop 2.6 主要由 HDFS 和 YARN 两大部分组成，其中 YARN 包含了运行在 ResourceManager 的 JVM 中的组件以及在 NodeManager 中运行的部分。本文深入探讨了 Hadoop 2.6 日志文件的解析方法，并详细介绍了 MapReduce 日志管理的最佳实践，旨在帮助用户更好地理解和优化日志处理流程，提高系统运维效率。 ... [详细]

蜡笔小新 2024-11-03 16:23:38
string
深入掌握Scala面向对象编程与Spark源码解析

在第二课中，我们将深入探讨Scala的面向对象编程核心概念及其在Spark源码中的应用。首先，通过详细的实战案例，全面解析Scala中的类和对象。作为一门纯面向对象的语言，Scala的类设计和对象使用是理解其面向对象特性的关键。此外，我们还将介绍如何通过阅读Spark源码来进一步巩固对这些概念的理解。这不仅有助于提升编程技能，还能为后续的高级应用开发打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-03 14:51:55
config
利用Struts1构建简易计算器：采用DispatchAction处理请求，动态Form优化开发流程，提供用户友好的错误提示

本文介绍了如何利用Struts1框架构建一个简易的四则运算计算器。通过采用DispatchAction来处理不同类型的计算请求，并使用动态Form来优化开发流程，确保代码的简洁性和可维护性。同时，系统提供了用户友好的错误提示，以增强用户体验。 ... [详细]

蜡笔小新 2024-11-09 19:48:22
java
Hadoop平台警告解决：无法加载本机Hadoop库的全面应对方案

本文探讨了在Hadoop平台上遇到“无法加载本机Hadoop库”警告的多种解决方案。首先，通过修改日志配置文件来忽略该警告，这一方法被证明是有效的。其次，尝试指定本地库的路径，但未能解决问题。接着，尝试不使用Hadoop本地库，同样没有效果。然后，通过替换现有的Hadoop本地库，成功解决了问题。最后，根据Hadoop的源代码自行编译本地库，也达到了预期的效果。以上方法适用于macOS系统。 ... [详细]

蜡笔小新 2024-11-09 19:46:30
main
使用 ListView 浏览安卓系统中的回收站文件

使用 ListView 浏览安卓系统中的回收站文件 ... [详细]

蜡笔小新 2024-11-09 16:34:55
web
探究 Lua 在 .NET 生态系统中的应用与挑战：鲜为人知的研究领域

在当前的软件开发领域，Lua 作为一种轻量级脚本语言，在 .NET 生态系统中的应用逐渐受到关注。本文探讨了 Lua 在 .NET 环境下的集成方法及其面临的挑战，包括性能优化、互操作性和生态支持等方面。尽管存在一定的技术障碍，但通过不断的学习和实践，开发者能够克服这些困难，拓展 Lua 在 .NET 中的应用场景。 ... [详细]

蜡笔小新 2024-11-08 14:47:43
request
Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析

Apache Hadoop HDFS QJournalProtocol 中 getJournalCTime 方法的应用与代码实例分析 ... [详细]

蜡笔小新 2024-11-08 11:32:58
java
Hadoop集群搭建常见问题与解决方案（一）：避免配置过程中的常见陷阱

在搭建Hadoop集群以处理大规模数据存储和频繁读取需求的过程中，经常会遇到各种配置难题。本文总结了作者在实际部署中遇到的典型问题，并提供了详细的解决方案，帮助读者避免常见的配置陷阱。通过这些经验分享，希望读者能够更加顺利地完成Hadoop集群的搭建和配置。 ... [详细]

蜡笔小新 2024-11-03 19:59:23
function
Eclipse JFace Text框架中IDocument接口的getNumberOfLines方法详解与编程实例

Eclipse JFace Text框架中IDocument接口的getNumberOfLines方法详解与编程实例 ... [详细]

蜡笔小新 2024-11-02 20:35:45
byte
字节跳动深圳研发中心安全业务团队正在火热招募人才！

字节跳动深圳研发中心安全业务团队正在火热招募人才！ ... [详细]

蜡笔小新 2024-11-02 18:55:30
window
深入解析OpenCV中的人脸检测算法实现

本文详细探讨了OpenCV中人脸检测算法的实现原理与代码结构。通过分析核心函数和关键步骤，揭示了OpenCV如何高效地进行人脸检测。文章不仅提供了代码示例，还深入解释了算法背后的数学模型和优化技巧，为开发者提供了全面的理解和实用的参考。 ... [详细]

蜡笔小新 2024-11-02 13:37:20
main
使用 MyEclipse 和 TestNG 测试框架在 Java 中高效进行单元测试

通过MyEclipse集成TestNG测试框架，可以在Java开发中高效地进行单元测试。本文介绍了在JDK 1.8.0_121和MyEclipse 10.0离线环境下配置和使用TestNG的具体步骤，帮助开发者提高测试效率和代码质量。 ... [详细]

蜡笔小新 2024-11-01 08:53:27
config
HBase客户端Table类中getRpcTimeout方法的应用与编程实例解析

HBase客户端Table类中getRpcTimeout方法的应用与编程实例解析 ... [详细]

蜡笔小新 2024-10-31 20:02:25

壹花壹浄土

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章