RDD与DataFrame区别，什么场景用RDD什么场景用DataFrame？

发布时间:2022-11-15 19:25:43

发布人:syq

　　区别

　　RDD是分布式的不可变的抽象的数据集，比如，RDD[Person]是以Person为类型参数，但是，Person类的内部结构对于RDD而言却是不可知的。

　　DataFrame是以RDD为基础的分布式的抽象数据集，也就是分布式的Row类型的集合(每个Row对象代表一行记录)，提供了详细的结构信息，即Schema信息。

　　Spark SQL可以清楚地知道该数据集中包含哪些列、每列的名称和类型。

　　应用场景

　　RDD的使用场景：你需要使用low-level的transformation和action来控制你的数据集；

　　你得数据集非结构化，比如，流媒体或者文本流; 你想使用函数式编程来操作你得数据，而不是用特定领域语言(DSL)表达；

　　你不在乎schema，比如，当通过名字或者列处理(或访问)数据属性不在意列式存储格式；

　　你放弃使用DataFrame和Dataset来优化结构化和半结构化数据集; DataFrame的使用场景：你想使用丰富的语义，high-level抽象，和特定领域语言API，那你可DataFrame或者Dataset；

　　你处理的半结构化数据集需要high-level表达， filter，map，aggregation，average，sum ，SQL 查询，列式访问和使用lambda函数，那你可DataFrame或者Dataset；

　　你想利用编译时高度的type-safety，Catalyst优化和Tungsten的code生成，那你可DataFrame或者Dataset；

　　你想统一和简化API使用跨Spark的Library，那你可DataFrame或者Dataset；

　　如果你是一个R使用者，那你可DataFrame或者Dataset；

　　如果你是一个Python使用者，那你可DataFrame或者Dataset。

上一篇hashmap是如何实现的？

下一篇bert语言模型有哪些

大数据kafka常见面试题——如何搭建kafka？

2023-08-07

大数据kafka常见面试题——kafka中如何避免重复消费

2023-08-04

大数据面试题之多种方法创建dataframe

2023-08-02

大数据Hadoop面试题——Hadoop干什么用的？

2023-08-01

大数据行业2年工作经验的面试题有哪些？

2023-07-28

大数据kafka面试题——kafka和flume的区别是什么？

2023-07-27

校区精品课程

互联网前瞻热门课程从入门到成神

全国旗舰校区