热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

sparkmongojava_java操作spark读写mongodb

首先要引入mongodb-spark-connector的maven依赖,具体的可见这个api网址:https:docs.mongodb.comspar

首先要引入mongodb-spark-connector的maven依赖,具体的可见这个api网址:https://docs.mongodb.com/spark-connector/current/java-api/,然后基本上就可以按照api上面的内容来进行spark操作了。这里面已经有spark读入mongodb数据转化为rdd的操作了。

有一些补充的或许有用(?)的代码,放在这里。

import com.mongodb.MongoClient;

import com.mongodb.MongoClientURI;

import com.mongodb.client.MongoDatabase;

import com.mongodb.spark.MongoConnector;

import com.mongodb.spark.MongoSpark;

import com.mongodb.spark.config.ReadConfig;

import com.mongodb.spark.config.WriteConfig;

import com.mongodb.spark.rdd.api.java.JavaMongoRDD;

import com.mongodb.spark.sql.helpers.StructFields;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SparkSession;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructType;

import org.bson.Document;

import org.bson.types.ObjectId;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import static java.lang.String.format;

import static java.util.Arrays.asList;

import static java.util.Collections.singletonList;

public final class JavaIntroduction {

/**

* Run this main method to see the output of this quick example.

*

* @param args takes an optional single argument for the connection string

* @throws InterruptedException if a latch is interrupted

*/

public static void main(final String[] args) throws InterruptedException {

JavaSparkContext jsc = createJavaSparkContext(args);

// Create a RDD

JavaRDD documents = jsc.parallelize(asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)).map

(new Function() {

@Override

public Document call(final Integer i) throws Exception {

return Document.parse("{test: " + i + "}");

}

});

// Saving data from an RDD to MongoDB

MongoSpark.save(documents);

// Saving data with a custom WriteConfig

Map writeOverrides = new HashMap();

writeOverrides.put("collection", "spark");

writeOverrides.put("writeConcern.w", "majority");

WriteConfig writeConfig = WriteConfig.create(jsc).withOptions(writeOverrides);

JavaRDD sparkDocuments = jsc.parallelize(asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)).map

(new Function() {

@Override

public Document call(final Integer i) throws Exception {

return Document.parse("{spark: " + i + "}");

}

});

// Saving data from an RDD to MongoDB

MongoSpark.save(sparkDocuments, writeConfig);

// Loading and analyzing data from MongoDB

JavaMongoRDD rdd = MongoSpark.load(jsc);

System.out.println(rdd.count());

System.out.println(rdd.first().toJson());

// Loading data with a custom ReadConfig

Map readOverrides = new HashMap();

readOverrides.put("collection", "spark");

readOverrides.put("readPreference.name", "secondaryPreferred");

ReadConfig readConfig = ReadConfig.create(jsc).withOptions(readOverrides);

JavaMongoRDD customRdd = MongoSpark.load(jsc, readConfig);

System.out.println(customRdd.count());

System.out.println(customRdd.first().toJson());

// Filtering an rdd using an aggregation pipeline before passing data to Spark

JavaMongoRDD aggregatedRdd = rdd.withPipeline(singletonList(Document.parse("{ $match: { test : { $gt : 5 } } }")));

System.out.println(aggregatedRdd.count());

System.out.println(aggregatedRdd.first().toJson());

// Datasets

// Drop database

dropDatabase(getMongoClientURI(args));

// Add Sample Data

List characters = asList(

"{'name': 'Bilbo Baggins', 'age': 50}",

"{'name': 'Gandalf', 'age': 1000}",

"{'name': 'Thorin', 'age': 195}",

"{'name': 'Balin', 'age': 178}",

"{'name': 'K铆li', 'age': 77}",

"{'name': 'Dwalin', 'age': 169}",

"{'name': '脫in', 'age': 167}",

"{'name': 'Gl贸in', 'age': 158}",

"{'name': 'F铆li', 'age': 82}",

"{'name': 'Bombur'}"

);

MongoSpark.save(jsc.parallelize(characters).map(new Function() {

@Override

public Document call(final String json) throws Exception {

return Document.parse(json);

}

}));

// Load inferring schema

Dataset df = MongoSpark.load(jsc).toDF();

df.printSchema();

df.show();

// Declare the Schema via a Java Bean

SparkSession sparkSession = SparkSession.builder().getOrCreate();

Dataset explicitDF = MongoSpark.load(jsc).toDF(Character.class);

explicitDF.printSchema();

// SQL

explicitDF.registerTempTable("characters");

Dataset centenarians = sparkSession.sql("SELECT name, age FROM characters WHERE age >= 100");

// Saving DataFrame

MongoSpark.write(centenarians).option("collection", "hundredClub").save();

MongoSpark.load(sparkSession, ReadConfig.create(sparkSession).withOption("collection", "hundredClub"), Character.class).show();

// Drop database

MongoConnector.apply(jsc.sc()).withDatabaseDo(ReadConfig.create(sparkSession), new Function() {

@Override

public Void call(final MongoDatabase db) throws Exception {

db.drop();

return null;

}

});

String objectId = "123400000000000000000000";

List docs = asList(

new Document("_id", new ObjectId(objectId)).append("a", 1),

new Document("_id", new ObjectId()).append("a", 2));

MongoSpark.save(jsc.parallelize(docs));

// Set the schema using the ObjectId helper

StructType schema = DataTypes.createStructType(asList(

StructFields.objectId("_id", false),

DataTypes.createStructField("a", DataTypes.IntegerType, false)));

// Create a dataframe with the helper functions registered

df = MongoSpark.read(sparkSession).schema(schema).option("registerSQLHelperFunctions", "true").load();

// Query using the ObjectId string

df.filter(format("_id = ObjectId('%s')", objectId)).show();

}

private static JavaSparkContext createJavaSparkContext(final String[] args) {

String uri = getMongoClientURI(args);

dropDatabase(uri);

SparkConf conf = new SparkConf()

.setMaster("local")

.setAppName("MongoSparkConnectorTour")

.set("spark.app.id", "MongoSparkConnectorTour")

.set("spark.mongodb.input.uri", uri)

.set("spark.mongodb.output.uri", uri);

return new JavaSparkContext(conf);

}

private static String getMongoClientURI(final String[] args) {

String uri;

if (args.length == 0) {

uri = "mongodb://localhost/test.coll"; // default

} else {

uri = args[0];

}

return uri;

}

private static void dropDatabase(final String connectionString) {

MongoClientURI uri = new MongoClientURI(connectionString);

new MongoClient(uri).dropDatabase(uri.getDatabase());

}

}



推荐阅读
  • 使用Python在SAE上开发新浪微博应用的初步探索
    最近重新审视了新浪云平台(SAE)提供的服务,发现其已支持Python开发。本文将详细介绍如何利用Django框架构建一个简单的新浪微博应用,并分享开发过程中的关键步骤。 ... [详细]
  • 如何在PHPCMS V9中实现多站点功能并配置独立域名与动态URL
    本文介绍如何在PHPCMS V9中创建和管理多个站点,包括配置独立域名、设置动态URL,并确保各子站能够正常运行。我们将详细讲解从新建站点到最终配置路由的每一步骤。 ... [详细]
  • 扫描线三巨头 hdu1928hdu 1255  hdu 1542 [POJ 1151]
    学习链接:http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想,后期可以求解很 ... [详细]
  • 本文详细分析了Hive在启动过程中遇到的权限拒绝错误,并提供了多种解决方案,包括调整文件权限、用户组设置以及环境变量配置等。 ... [详细]
  • 从 .NET 转 Java 的自学之路:IO 流基础篇
    本文详细介绍了 Java 中的 IO 流,包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据,并结合编码机制确保字符数据的正确读写。同时,文中还涵盖了装饰设计模式的应用,以及多种常见的 IO 操作实例。 ... [详细]
  • 本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包,从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例,并解释了每个步骤的实现细节。 ... [详细]
  • 本文详细介绍了Java中的访问器(getter)和修改器(setter),探讨了它们在保护数据完整性、增强代码可维护性方面的重要作用。通过具体示例,展示了如何正确使用这些方法来控制类属性的访问和更新。 ... [详细]
  • 本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本,并进行数据处理和保存。 ... [详细]
  • andr ... [详细]
  • 本文探讨了如何在给定整数N的情况下,找到两个不同的整数a和b,使得它们的和最大,并且满足特定的数学条件。 ... [详细]
  • 本文详细介绍了Java中org.w3c.dom.Text类的splitText()方法,通过多个代码示例展示了其实际应用。该方法用于将文本节点在指定位置拆分为两个节点,并保持在文档树中。 ... [详细]
  • 本文详细介绍了macOS系统的核心组件,包括如何管理其安全特性——系统完整性保护(SIP),并探讨了不同版本的更新亮点。对于使用macOS系统的用户来说,了解这些信息有助于更好地管理和优化系统性能。 ... [详细]
  • 本文详细介绍了 Apache Jena 库中的 Txn.executeWrite 方法,通过多个实际代码示例展示了其在不同场景下的应用,帮助开发者更好地理解和使用该方法。 ... [详细]
  • 2023年京东Android面试真题解析与经验分享
    本文由一位拥有6年Android开发经验的工程师撰写,详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]
  • 在 ExtJS 中,类的别名(alias)是开发过程中非常有用的一个特性。通过别名,开发者可以使用简短且易于记忆的名称来引用复杂的类名。本文将详细探讨如何在 ExtJS API 中使用和定义别名,并提供实例说明。 ... [详细]
author-avatar
广东淡水未央
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有