2020
09-24
09-24
Pyspark获取并处理RDD数据代码实例
弹性分布式数据集(RDD)是一组不可变的JVM对象的分布集,可以用于执行高速运算,它是ApacheSpark的核心。在pyspark中获取和处理RDD数据集的方法如下:1.首先是导入库和环境配置(本测试在linux的pycharm上完成)importosfrompysparkimportSparkContext,SparkConffrompyspark.sql.sessionimportSparkSessionos.environ["PYSPARK_PYTHON"]="/usr/bin/python3"conf=SparkConf().setAppName('test_rdd')sc=SparkContext...
继续阅读 >