2020
10-06
10-06
python读取hdfs上的parquet文件方式
在使用python做大数据和机器学习处理过程中,首先需要读取hdfs数据,对于常用格式数据一般比较容易读取,parquet略微特殊。从hdfs上使用python获取parquet格式数据的方法(当然也可以先把文件拉到本地再读取也可以):1、安装anaconda环境。2、安装hdfs3。condainstallhdfs33、安装fastparquet。condainstallfastparquet4、安装python-snappy。condainstallpython-snappy5、读取文件##namenodemode:fromhdfs3importHDFileS...
继续阅读 >