202104-07 Hadoop 使用IntelliJ IDEA 进行远程调试代码的配置方法 一.前言昨天晚上遇到一个奇葩的问题,搞好的环境DataNode启动报错.报错信息提示的模棱两可,没办法定位原因.办法,开启远程调试…注意:开启远程调试的代码,必须与本地idea的代码必须保持一致.二.服务器端配置2.1.设置启动远程debug端口修改服务器上的配置文件${HADOOP_HOME}/etc/hadoop/hadoop-env.sh增加环境变量即可.组件环境变量设置NameNodeexportHADOOP_NAMENODE_OPTS="-... 继续阅读 >
202011-17 Hadoop3.2.0集群搭建常见注意事项 一端口变化3.2.0版本中namenode页面端口是9870,datanode管理端口是8088,所以需要开放这两个端口还给web页面访问二butthereisnoYARN_RESOURCEMANAGER_USERdefined.Abortingoperationhadoop-env.sh中不光需要配置java-home,还需要声明下面这些用户变量,不然无法启动:exportJAVA_HOME=/usr/local/jdk/jdk1.8.0_191exportHDFS_NAMENODE_USER=rootexportHDFS_DATANODE_USER=rootexportHDFS_SECONDARYNAMENODE_USER=rootexpo... 继续阅读 >
202010-06 Python API 操作Hadoop hdfs详解 http://pyhdfs.readthedocs.io/en/latest/1:安装由于是windows环境(linux其实也一样),只要有pip或者setup_install安装起来都是很方便的>pipinstallhdfs2:Client——创建集群连接>fromhdfsimport*>client=Client("http://s100:50070")其他参数说明:classhdfs.client.Client(url,root=None,proxy=None,timeout=None,session=None)url:ip:端口root:制定的hdfs根目录proxy:制定登陆的用户身份timeout:设置的... 继续阅读 >
202009-23 详解Hadoop2.7.2 编译64位源码 一、环境准备1.CentOS配置最好是用新克隆的虚拟机,虚拟机内存设置大一点(我设置的4G),配置网络,主机名,关闭防火墙,关闭selinux注意:采用root角色编译,减少文件夹权限出现问题2.jar包准备(hadoop源码、JDK8、maven、ant、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-8u144-linux-x64.tar.gz(3)apache-ant-1.9.9-bin.tar.gz(build工具,打包用的)(4)apache-maven-3.0.5-bin.tar.gz(5)protobuf-2.5.0.tar.gz(... 继续阅读 >
201411-11 大数据基础技术——爬虫的工具选择 大数据是神马?怎么样才算拥有一只善良又可爱的大数据?一种传统的方法是爬取相关的网页,所以咱们今天讲讲爬虫的一些简单知识和可以选择的工具。爬虫的原理就不必多说了,可以自行Google首先,应该认真考虑你需要什么样的大数据,也就是你的需求是什么。爬取普通网页、博客、新闻、社交网络还是图片?貌似咋一看都是爬虫去爬好了,其实不然,细节上的需求可能导致你需要的工具属性不一样。其次,讲讲笔者用过的一些爬虫工具... 继续阅读 >