202202-12 SparkSQl简介及运行原理 目录一:什么是SparkSQL?(一)SparkSQL简介(二)SparkSQL运行原理(三)SparkSQL特点二:DataFrame(一)什么是DataFrame?补充:Spark中的RDD、DataFrame和DataSet讲解(一)Spark中的模块(二)RDD和DataFrame的区别三:SparkSession(一)SparkSession简介(二)SparkSession实质(三)SparkSession特点四:通过RDD创建DataFrame(一)通过样本类创建(反射)(二)通过SparkSession创建DataFrame(三)通过json文件创建Da... 继续阅读 >
202202-12 SparkSQL使用快速入门 目录一、SparkSQL的进化之路二、认识SparkSQL2.1什么是SparkSQL?2.2SparkSQL的作用2.3运行原理2.4特点2.5SparkSession2.6DataFrames三、RDD转换成为DataFrame3.1通过caseclass创建DataFrames(反射)3.2通过structType创建DataFrames(编程接口)3.3通过json文件创建DataFrames四、DataFrame的read和save和savemode4.1数据的读取4.2数据的保存4.3数据的保存模式五、数据源5.1数据源只json5.2数据源之parq... 继续阅读 >
202202-12 IDEA 开发配置SparkSQL及简单使用案例代码 1.添加依赖在idea项目的pom.xml中添加依赖。<!--sparksql依赖,注意版本号--><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId><version>3.0.0</version></dependency>2.案例代码packagecom.zf.bigdata.spark.sqlimportorg.apache.spark.SparkConfimportorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.{DataFrame,Dataset,Row,SparkSession}objectSpark01_Spar... 继续阅读 >