spark #sparksql #sparkRDD #sparkDataFrame #sparkDataset #CatalystOptimizer
-
Spark RDD, DataFrame, DatasetDataEngineering/Spark 2021. 7. 26. 05:49
Spark 에서 제공하는 데이터 API들 RDD(2011) DataFrame(2013) Dataset(2015) -가장 기본적인 저수준 API -JVM object들의 distribute collection -table join, 최적화 등을 사용자가 직접 정의해야함 -고수준 API -Row object들의 distribute collection -사용자 정의 함수 사용 가능 -schema less -고수준 API -내부적으로는 rows, 외부적으로는 JVM object들의 ,, -사용자가 데이터를 객체화해서 사용할 수 있도록 사용자에게 도메인 객체를 제공 -자바, 스칼라만 가능 -자동으로 schema 가짐 RDD(Resilient Distributed Dataset) [특징] In-memory Comp..