浅谈Spark RDD API中的Map和Reduce

admin 2019-10-13 12:38:03 阅读() 评论()

RDD是什么？ RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这…

RDD是什么？

RDD是Spark中的抽象数据结构类型，任何数据在Spark中都被表示为RDD。从编程的角度来看，RDD可以简单看成是一个数组。和普通数组的区别是，RDD中的数据是分区存储的，这样不同分区的数据就可以分布在不同的机器上，同时可以被并行处理。因此，Spark应用程序所做的无非是把需要处理的数据转换为RDD，然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分，将介绍Spark RDD中与Map和Reduce相关的API中。

如何创建RDD？

RDD可以从普通数组创建出来，也可以从文件系统或者HDFS中的文件创建出来。

举例：从普通数组创建RDD，里面包含了1到9这9个数字，它们分别在3个分区中。

scala> val a = sc.parallelize(1 to 9, 3)a: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[1] at parallelize at :12

本文来自网络，不代表1号站长-站长学院|资讯交流平台立场。转载请注明出处： https://www.1cn.cc/fwq/web/3356.html

标签:

作者: admin

这里可以再内容模板定义一些文字和说明，也可以调用对应作者的简介！或者做一些网站的描述之类的文字或者HTML！

评论列表()

关注微博

返回顶部

扫一扫打开手机网站

微信扫一扫关注我们

浅谈Spark RDD API中的Map和Reduce

作者: admin

评论列表()

联系我们

微信扫一扫关注我们

给这篇文章的作者打赏

作者: admin

为您推荐