当前位置: 开发笔记 > 编程语言 > 正文

spark使用到别的jar包

作者：小邵Bans_530 | 来源：互联网 | 2023-07-26 14:05

第一种方式操作：将第三方jar文件打包到最终形成的spark应用程序jar文件中应用场景：第三方jar文件比较小，应用的地方比较少第

第一种方式

操作&＃xff1a;将第三方jar文件打包到最终形成的spark应用程序jar文件中

应用场景&＃xff1a;第三方jar文件比较小&＃xff0c;应用的地方比较少

第二种方式

操作&＃xff1a;使用spark-submit提交命令的参数: --jars

要求&＃xff1a;

1、使用spark-submit命令的机器上存在对应的jar文件

2、至于集群中其他机器上的服务需要该jar文件的时候&＃xff0c;通过driver提供的一个http接口来获取该jar文件的(例如&＃xff1a;http://192.168.187.146:50206/jars/mysql-connector-java-5.1.27-bin.jar Added By User)

## 配置参数&＃xff1a;--jars JARS

如下示例&＃xff1a;

$ bin/spark-shell --jars /opt/cdh-5.3.6/hive/lib/mysql-connector-java-5.1.27-bin.jar

应用场景&＃xff1a;要求本地必须要有对应的jar文件

第三种方式

操作&＃xff1a;使用spark-submit提交命令的参数: --packages

## 配置参数&＃xff1a;--packages jar包的maven地址如下示例&＃xff1a; $ bin/spark-shell --packages mysql:mysql-connector-java:5.1.27 --repositories http://maven.aliyun.com/nexus/content/groups/public/

## --repositories 为mysql-connector-java包的maven地址&＃xff0c;若不给定&＃xff0c;则会使用该机器安装的maven默认源中下载
## 若依赖多个包&＃xff0c;则重复上述jar包写法&＃xff0c;中间以逗号分隔
## 默认下载的包位于当前用户根目录下的.ivy/jars文件夹中

应用场景&＃xff1a;本地可以没有&＃xff0c;集群中服务需要该包的的时候&＃xff0c;都是从给定的maven地址&＃xff0c;直接下载

第四种方式

操作&＃xff1a;更改Spark的配置信息:SPARK_CLASSPATH, 将第三方的jar文件添加到SPARK_CLASSPATH环境变量中

注意事项&＃xff1a;要求Spark应用运行的所有机器上必须存在被添加的第三方jar文件

A.创建一个保存第三方jar文件的文件夹: 命令&＃xff1a;$ mkdir external_jars
B.修改Spark配置信息命令&＃xff1a;$ vim conf/spark-env.sh 修改内容&＃xff1a;SPARK_CLASSPATH&＃61;$SPARK_CLASSPATH:/opt/cdh-5.3.6/spark/external_jars/*
C.将依赖的jar文件copy到新建的文件夹中命令&＃xff1a;$ cp /opt/cdh-5.3.6/hive/lib/mysql-connector-java-5.1.27-bin.jar ./external_jars/

应用场景&＃xff1a;依赖的jar包特别多&＃xff0c;写命令方式比较繁琐&＃xff0c;被依赖包应用的场景也多的情况下

或者在spark-default.conf下面&＃xff0c;配置

spark.executor.extraClassPath&＃61;/data/*
spark.driver.extraClassPath&＃61;/data/*

备注&＃xff1a;&＃xff08;只针对spark on yarn(cluster)模式&＃xff09;

spark on yarn(cluster)&＃xff0c;如果应用依赖第三方jar文件

最终解决方案&＃xff1a;将第三方的jar文件copy到${HADOOP_HOME}/share/hadoop/common/lib文件夹中(Hadoop集群中所有机器均要求copy)

推荐阅读

python
WinPythonHadoop在Win10上安装教程

本文介绍了在Win10上安装WinPythonHadoop的详细步骤，包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性，并建议重启电脑以确保安装成功。 ... [详细]

蜡笔小新 2023-12-14 11:26:56
python
HDFS2.x新特性

一、集群间数据拷贝scp实现两个远程主机之间的文件复制scp-rhello.txtroothadoop103:useratguiguhello.txt推pushscp-rr ... [详细]

蜡笔小新 2023-12-13 13:52:40
python
Hadoop学习笔记1：伪分布式环境搭建

在搭建Hadoop环境之前，请先阅读如下博文，把搭建Hadoop环境之前的准备工作做好，博文如下： 1、CentOS6.7下安装JDK,地址：http:b ... [详细]

蜡笔小新 2023-10-16 16:04:04
get
Hadoop （CDH4发行版）集群部署（部署脚本，namenode高可用，hadoop管理）

前言折腾了一段时间hadoop的部署管理，写下此系列博客记录一下。为了避免各位做部署这种重复性的劳动，我已经把部署的步骤写成脚本，各位只需要按着本文把脚本执行完，整个环境基本就部署 ... [详细]

蜡笔小新 2023-10-16 15:11:51
get
如何去除Win7快捷方式的箭头

本文介绍了如何去除Win7快捷方式的箭头的方法，通过生成一个透明的ico图标并将其命名为Empty.ico，将图标复制到windows目录下，并导入注册表，即可去除箭头。这样做可以改善默认快捷方式的外观，提升桌面整洁度。 ... [详细]

蜡笔小新 2023-12-14 16:17:05
search
Hadoop源码解析1Hadoop工程包架构解析

1 Hadoop中各工程包依赖简述 Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章，介绍了它们的计算设施。 GoogleCluster：ht ... [详细]

蜡笔小新 2023-10-17 13:28:20
search
MR程序的几种提交运行模式

MR程序的几种提交运行模式本地模型运行1在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localjobrunner执行-- ... [详细]

蜡笔小新 2023-10-16 18:29:26
python
《Spark核心技术与高级应用》——1.2节Spark的重要扩展

本节书摘来自华章社区《Spark核心技术与高级应用》一书中的第1章，第1.2节Spark的重要扩展，作者于俊向海代其锋马海平，更多章节内容可以访问云栖社区“华章社区”公众号查看1. ... [详细]

蜡笔小新 2023-10-16 18:07:56
python
Kylin 单节点安装

软件环境Hadoop:2.7,3.1(sincev2.5)Hive:0.13-1.2.1HBase:1.1,2.0(sincev2.5)Spark(optional)2.3.0K ... [详细]

蜡笔小新 2023-10-16 16:09:42
get
MapReduce 切片机制源码分析

总体来说大概有以下2个大的步骤1.连接集群(yarnrunner或者是localjobrunner)2.submitter.submitJobInternal()在该方法中会创建 ... [详细]

蜡笔小新 2023-10-16 13:03:18
scala
基于 Docker 快速部署多需求 Spark 自动化测试环境

基于,docker,快速,部署,多,需求,spark ... [详细]

蜡笔小新 2023-10-16 11:58:06
scala
YARN回顾（七）——Spark在YARN上的运行模式

SparkOnYarn在YARN上启动Spark应用有两种模式。在cluster模式下，Spark驱动器（driver）在YARNApp ... [详细]

蜡笔小新 2023-10-15 12:39:15
get
Wince程序内存和存储内存的分析及作用

本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存，其中系统内存占用了一部分SDRAM，而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念，常用于消费电子设备中。此外，文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]

蜡笔小新 2023-12-10 16:21:27
ip
Hadoop2.6.0 + 云centos +伪分布式只谈部署

3.0.3玩不好，现将2.6.0tar.gz上传到usr,chmod-Rhadoop:hadophadoop-2.6.0，rm掉3.0.32.在etcp ... [详细]

蜡笔小新 2023-10-17 19:28:24
ip
什么是大数据lambda架构

一、什么是Lambda架构Lambda架构由Storm的作者[NathanMarz]提出，根据维基百科的定义，Lambda架构的设计是为了在处理大规模数 ... [详细]

蜡笔小新 2023-10-17 16:06:09

小邵Bans_530

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章