大数据环境搭建已验证通过.docx
- 文档编号:3189769
- 上传时间:2023-05-05
- 格式:DOCX
- 页数:23
- 大小:512.55KB
大数据环境搭建已验证通过.docx
《大数据环境搭建已验证通过.docx》由会员分享,可在线阅读,更多相关《大数据环境搭建已验证通过.docx(23页珍藏版)》请在冰点文库上搜索。
大数据环境搭建已验证通过
Cygwin的安装
1.先在
打开后双击setup.exe安装。
如下图:
2. 直接点击下一步后如下图:
图中有三个选项,意思一看就懂啊。
这里直选择下一步
3.直接点击下一步后如下图:
这里是要选择安装路径,设置在哪里都可以。
没有特殊要求。
4. 设置好路径后下一步进入下图:
这是设置Cygwin安装文件的目录。
先安装的exe只是个引导它需要自己下载安装文件。
设置这个目录就是存储这些文件的。
5.设置好后下一步进入下图:
这里是你网络的链接方式,第一个是直接链接,第二个是使用IE代理,第三个使用你指定的HTTP/FTP代理。
你要根据你自己的情况选择。
通常选第一个如不好使则查看你的联网是否使用了代理用了就选下面两个中的一个。
6.设置好后下一步进入下图:
选择其中一个url用作下载的站点。
我选第一就行挺快的。
你的不行可以试试别的。
也可以在下面的UserURL中添加url写完地址一点Add就加入到上面的url列表中了。
然后选择你自己加入的url即可。
如果自己加入可以尝试一下这个url:
Error:
gcryptlibraryerror60illegaltag。
就是上一步网络选择的问题或者选择的url不能下载。
自己可以尝试改动一下。
正常下载的话也可能出现一个警告窗口如下图:
点击确定即可。
随即会进入下图。
7. 来到此图就要开始进行一些配置了。
选择一下要安装的包。
如下图:
首先:
选择其中的BaseDefault,通常这里的包都已经选择上了。
你要确保sed已选择上,这样你可以在eclipse中使用hadoop了。
如下图这样即可:
其次:
选择DevelDefault,将其中的subversion选中第一个即可。
如下图:
最后:
选择Netdefault包,将其中的openssh及openssl选上。
如下图:
经过上述包选择后点击下一步即可。
8. 来到这个图中如下:
都是些你不用也不能改的东西,包依赖的一些提示信息。
直接点一下步。
这是将进入下载及安装你刚刚所选择的包的过程。
随后不用再说了。
设置是否在桌面显示图标之类额。
随后结束了。
9. 打开cygwin进行配置,首先输入:
ssh-host-config.回车。
会让你输入yes/no输入no。
回车。
见到Havefun!
就说明成功了。
见下图:
10. 先到计算机管理—服务处开启CYGWINsshd服务。
开启后在cygwin中输入:
sshlocalhost进行登录。
回车后,会提示是否继续链接选择yes。
随后输入系统用户密码登录。
注意:
如果你当前使用的用户没有密码就设定一个。
否则没有密码你即使不输你回车也不好使。
如下图:
11. 这是进行ssh的无密码登录。
输入ssh-keygen,提示输入的地方直接按回车即可。
执行后如下图:
随后执行下图中的命令。
1、cd~/.ssh/
2、ls
3、cpid_rsa.pubauthorized_keys到此步即可。
再ls就会看到authorized_keys
如下图:
完成后输入exit退出。
可能需要输入几次。
没退出就再输一个exit。
呵呵。
。
12.然后再次打开cygwin。
这回直接输入sshlocalhost登录命令就可以直接进入了。
不在需要密码了。
如下图:
至此cygwin就配置结束了。
你可以使用了。
Hadoop的配置
1. 下载hadoop安装包
可以到这个网站上下载http:
//www.apache.org/dist//hadoop/core/如果下载不下来自己到网上找找很多的。
选一个版本下载。
我用的是hadoop-0.20.2。
2.解压到一个目录下。
随便选择按个目录。
建议直接选择一个根目录。
随后进行配置。
这里配置的是伪分布式了。
需要配置四个文件。
都在conf目录下。
分别为:
hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml。
下面逐一说明:
3.hadoop-env.sh
这个文件中主要配置JAVA_HOME路径。
需要注意的是:
1.jkd是1.6以上版本。
2.路径应该是linux风格的。
打开后将export前面的#注释符去掉,路径为/cygdrive/你的jdk路径(注:
这里修改必须利用TXT打开否则修改后会出问题!
!
!
)。
如果路径中有空格需要将路径用‘’括起来(注:
若路径中带有空格,如ProgramFiles的情况,加””也无作用,则创建软连接即可解决,如下:
里面有空格program files你可以找个目录设置一个软链接,比如说ln -s "C:
\Program Files\Java\jdk1.7.0_07" /usr/local/然后将hadoop-env.sh里的JAVA_HOME改成export JAVA_HOME=/usr/local/jdk1.7.0_07就可以了
)。
设置后如下图:
4.core-site.xml
配置属性很多。
到也可以简化自己设置几个属性就可以了。
这里我们直接复制src/core下的core-default.xml到conf下并改名为core-site.xml替换原来的。
修改下列属性如下:
xml:
namespaceprefix=ons="urn:
schemas-microsoft-com:
office:
office"/>
设置临时的文件hadoop默认中有了但重启后会被删除所以还得需要格式化所以手动设定一个。
避免格式化。
//localhost:
9000
5.hdfs-site.xml
这个也同样到src/hdfs下把hdfs-default.xml复制到conf下改名替换。
修改下列属性:
DFS名节点存放位置
DFS数据节点存放位置
存放副本数,这是为了安全考虑的在集群中要多放几个。
咱们是伪分布式的就一个可以了。
6.mapred-site.xml
这个也同样到src/mapred中把mapred-default.xml复制到conf中改名替换。
修改下列属性:
9001
MapReduce的jogtracker运行在所在主机及端口号。
MapReduce的运行中间数据文件的存放路径
7.这就可以了。
设置就结束了。
下面运行试一试。
使用cygwin进入到hadoop安装路径下的bin文件夹中。
查看显示如下:
首先格式化:
./hadoopnamenode–format如果让选择Y/N选择Y。
如下图:
其次运行:
./start-all.sh如下图则成功了。
总共会启动五个节点。
最后:
运行一下自带的wordcount例子。
1.先在本地文件建立一个文件夹(最好建在hadoop的安装文件在同一个目录下)如testin随后在里面建几个文件txt或java的随意。
在里面输入以下英文单字。
如file1.java内容Helloworld!
file2.java内容:
Iloveyou!
2.在cygwin中建一个hadoophdfs上的目录如testin。
命令如下:
./hadoopdfs–mkdirtestin
3.将本地的两个文件上传到dfs上去。
./hadoopdfs–put/testin/*.javatesting(注意这里的FileForHadoop是例子中testin文件目录,加与不加可按具体情况而定)
此时运行./hadoopdfs–lstestin就会就会发现已有了这两个文件了。
2、3步执行如下图:
4.执行
./hadoopjar./../hadoop-0.20.2-examples.jarwordcounttestintestout
如下图则成功了
5.查看结果
./hadoopdfs-lstestout会发现下面有两个文件一个是日志一个是结果文件。
./hadoopdfs-cattestout/part-r-00000查看统计单字的结果文件
执行如下图:
至此hadoop就安装配置都已结束并经过测试已经可以正常运行了。
开始云学习吧。
安装Eclipse插件
打开解压后的文件夹,把hadoop-0.19.2/contrib/eclipse-plugin下的hadoop-0.19.2-eclipse-plugin.jar文件拷到eclipse的plugins目录下,重启eclipse,在Window-》OpenPerspective-》other,弹出的窗口中应该有一项Map/Reduce项,代表安装成功了。
如果没有的话,把eclipse下的configuration/org.eclipse.update文件夹删了,再重启eclipse。
启动Hudoop集群
启动五个cygwin。
在第一中启动NameNode,执行:
cdhadoop-0.19.2
bin/hadoopnamenode
在第二个中启动SecondaryNameNode,执行:
cdhadoop-0.19.2
bin/hadoopsecondarynamenode
第三个中启动jobtracker执行:
cdhadoop-0.19.2
bin/hadoopjobtracker
第四个中启动datanode,执行
cdhadoop-0.19.2
bin/hadoopdatanode
最后一个启动tasktracker,执行:
cdhadoop-0.19.2
bin/hadooptasktracker
在Eclipse中配置环境
启动eclipse,转到Map/ReducePerspective,在上图的Map/ReduceLocations里,新建一个Location,填入以下值
*LocationName--localhost
*Map/ReduceMaster
oHost--localhost
oPort–9101(视自己的.xml里的修改而定!
!
9001)
*DFSMaster
oCheck"UseM/RMasterHost"
oPort--9100(视自己的.xml里的修改而定!
!
9000)
*Username--默认
上传文件到HDFS
打开一个cygwin,执行
cdhadoop-0.19.1
bin/hadoopfs-mkdirIn
bin/hadoopfs-put*.txtIn
这时,在eclipse的Projectexplorer的DFSlocation中,应该能反应变化,没有的话,reconnect一下
好了,东西都准备好了,下篇就可以开始创建工程了。
启动Eclipse,
·右键点击 ProjectExplorer窗口,选择New->Project..找到Map/ReduceProject,点Next,输入名字。
·点击下面的ConfigHadoopInstallDirectiory,输入Hadoop的目录,如:
C:
/cygwin/home/User/hadoop-0.19.2
·右键点击新创建的Hadoop 工程,选择 New->Other转到Map/Reduce文件夹,选择MapReduceDriver然后点击Next,输入名字,点击Finish。
·新创建了一个文件,但是有错误,把
conf.setInputPath(newPath("src"));
conf.setOutputPath(newPath("out"));
换为
conf.setInputFormat(TextInputFormat.class);
conf.setOutputFormat(TextOutputFormat.class);
FileInputFormat.setInputPaths(conf,newPath("In"));
FileOutputFormat.setOutputPath(conf,newPath("Out"));
右键点击文件,选择RunAs-->RunonHadoop.弹出以下窗口:
选择"Chooseexistinghadooplocation",然后选择刚才创建的localhost,点Finish就开始运行了.
结束了^_^
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 环境 搭建 验证 通过
![提示](https://static.bingdoc.com/images/bang_tan.gif)