【上海校区】HDFS设计思想&主要框架&常用命令

hdfs：hadoop distributed file system分布式文件系统

一、设计思想

1.分块存储

举个例子，如有有100T文件，存在3个节点，怎么存？100T存在一个节点上吗？直接存储在一台机器上合理吗？不合理！负载不均衡。我们可以将100T分成多个部分进行存储，分块存储。

每个部分（块）应该分很多合适？1T，如果文件只有2T，分成2个块，还是负载不均衡！
如果块太大不合适，负载会不均衡。

块大小1kb合适吗？也不合适。元数据存储的时候，一个块会存储一条元数据，这样会导致需要存很多元数据。namenode的压力会很大。

hadoop中已经对块做了设计：hadoop1：块大小默认64M ；hadoop2:块大小默认是128M；

在参数设置里有：
dfs.blocksize 134217728    128M

说到这里，我们来看一下集群中的配置：

集群中的所有的配置如果没有进行配置则使用默认配置：
例如我的配置在：/home/hadoop/apps/hadoop-2.7.6/share/hadoop/目录下的jar包中：
            core-default.xml
            hdfs-default.xml
            yarn-default.xml
            mapred-default.xml
想要修改默认块大小，只需要修改这个参数：
hdfs-site.xml文件中：
<property>
      <name>dfs.blocksize</name>
      <value>46472828</value>
</property>
如有自己进行配置了，则会覆盖原始的默认配置

再来看一下具体的存储，按照系统默认设置，如果有一个文件300M，则需要分成几块3块（300/128）
块1:0-127
块2:128-255
块3:256-300M 44M  不满128M 仍然会单独成一个块  块的实际大小44M
如果又来一个文件有150M，是接着上一个的存，还是自己独立存储？
答：自己独立进行存
块4:0-127
块5:128-150
所以如果文件存储完了，块不够128M 就按照实际的进行存储，单独存一个块。一个单独的文件即使只有1kb也占一个块。

2. 备份存储—-副本机制

副本是什么？

副本相当于是备份，完全复制出来的，文件完全一样。

在hdfs中数据块的存储是采用多副本存储的

各个副本之间没有主次之分，多个副本之间是相互互为副本，地位一样的。这里副本的个数也就是文件的总份数。例如副本数量为3，也就是这个文件的在集群中的总数量是3。
hadoop集群中默认存储的副本个数：3。

副本配置参数：
dfs.replication 3

一个块这里配置了几个副本就会复制几份出来

1）如果配置了副本，则会覆盖默认的副本数量

如果只有3个节点，副本有2个,则每一个块会被存2份。假设有一个块损坏了，剩下1个，这个时候hdfs会进行复制，达到块的个数2。假设复制完了，刚才的损坏的块又恢复了，块的个数变为3 ，这个时候块多1个，namenode在一定的时间内如果发现还是3个块，则会删除一个块，最终达到2个块。

2）同一个块多副本如何存储：

多副本存在一个节点上有没有意义？没有意义，因为如果机器宕机所有副本都没有了。所以每个副本存储在不同的节点上，任何两个副本都不可能存储在相同的节点上。也就是说每一个节点上只能存储同一个块的一个副本，一个节点上可以存多个块，但是这些块都是不同的块。

3）如果节点2个，副本4个怎么存储？

实际存储的时候会存储2个，集群会进行记账，欠2个副本，当集群中的节点个数增加的时候会进行复制，最终复制到4个。

4）副本个数越多越好吗？

副本个数越多数据安全性越高，但是数据维护起来越困难，成本加大。hdfs底层用空间换取数据安全的，因为目前硬件成本相对于数据价值来说是比较低的。

二、hdfs主要架构

namenode的作用一：存储元数据元数据记录了—-抽象目录树:hdfs是一个文件系统类似于linux根目录/（所有集群共同存储的根目录，不指某一台机器的根目录）

这里的抽象目录树指的是hdfs上的文件目录结构对于用户是看不到底层的一个个节点的，他们看到的是一个抽象出来的目录树。

元数据记录了—-数据和块的映射关系
Block ID: 1073741825，这个参数是全局、（整个hdfs集群）唯一的，是块的标识，每一个块都有自己唯一的id。
Block Pool ID: BP-54673466-192.168.40.201-1531445892504，这个参数是集群的块池，一个namenode只对应一个块池
Generation Stamp: 1001
Size: 134217728 128M

映射关系如：
hadoop-2.7.6.tar.gz
blk_1073741825
blk_1073741826

元数据记录了—- 数据块的存储位置

Availability，这个参数记录数据块的存储位置
hadoop02
hadoop01

元数据的位置：

/home/hadoop/data/hadoopdata/name/current的目录下：
<property>
<name>dfs.datanode.data.dir</name>
<value>/home/hadoop/data/hadoopdata/data</value>
<description>datanode 的数据存储目录</description>
</property>

namenode的作用二：接收客户端的读写请求

datanode的作用一：负责真正的数据存储

存储的路是在配置文件中写好的，例如我的：
<property>
      <name>dfs.datanode.data.dir</name>
      <value>/home/hadoop/data/hadoopdata/data</value>
      <description>datanode 的数据存储目录</description>
</property>

实际路径在：home/hadoop/data/hadoopdata/data/current/BP-54673466-192.168.40.201-1531445892504/current/finalized/subdir0/subdir0下会：
blk_1073741825       blk_1073741826

datanode的作用二：负责处理客户端的真正读（下载）写（上传）请求

secondarynamenode：是namenode的备份节点（冷备份）

帮助namenode进行元数据备份；帮namenode做一些工作，减轻nanenode压力

hdfs优缺点

优点

（1）成本低，在普通的廉价机上就可以使用。以硬件故障作为常态
（2）高容错性，一个机器宕机的时候不影响数据的访问
（3）适合批量数据访问：适合离线数据访问
（4）适合大数据访问
（5）流式访问：一次写入，多次读取。不支持修改，修改的成本太高
缺点

（1）不支持低延迟的数据访问，不支持实时的数据访问
（2）不擅长存储小文件（大量的小文件）
寻址时间过长：在进行数据访问的时候先访问元数据，如果存储了大量的小文件，会花费很长的时间在元数据检索上
namenode的压力过大：底层元数据存储的时候是一个块存储一条元数据，一条元数据大概是150byte，会造成namenode中存储大量的元数据信息，增加namenode的压力
不支持文件内容修改，但是支持对文件内容追加（不建议使用）
三、hdfs的使用

1.脚本方式（使用广泛）

命令

文件上传的命令：hadoop fs -put 本地文件 hdfs路径
查看文件的命令：hadoop fs -ls 路径
启动hadoop的客户端：hadoop fs
hadoop/hdfs：hadoop namemode -format
fs：run a generic filesystem user client
将本地文件追加到hdfs的指定的文件上，追加到末尾，不建议使用：-appendToFile aa.txt /yy
查看文件的命令：hadoop fs -cat /hadoop-2.7.6.tar.gz
hadoop fs -checksum /yy
修改文件夹权限：hadoop fs -chmod 777 /yy
修改文件所属用户：chown
本地文件上传到hdfs的根目录：hadoop fs -copyFromLocal aa.txt /
新建文件空文件：hadoop fs -touchz /yy
删除空文件夹：hadoop fs -rmdir /aa/bb/cc
删除文件：hadoop fs -rm -r -f /aa
-r|R递归删除
-f force 强制删除
从hdfs下载文件到本地：hadoop fs -copyToLocal /yy ./
计数统计：hadoop fs -count /aa
            5          3       216983315 /
         目录的个数文件的个数大小
1
2
把hdfs中aa.txt文件复制到/aa下：hadoop fs -cp /aa.txt /aa
查看磁盘占有率：hadoop fs -df -h
查看指定路径的磁盘占有：hadoop fs -du -h /
文件下载： hadoop fs -get /yy ./
显示末尾的显示末尾1kb的数据：hadoop fs -tail /aa.txt
调整文件或目录的副本个数的：hadoop fs -setrep 4 /hadoop.tar.gz
-w wait，等待复制完成
-R 修改目录的时候代表递归修改其下面的所有文件的副本个数
`
hadoop fs -setrep -w 4 -R /aa

- 以文本方式显示 zip 、jar ：
- 显示末尾的显示末尾1kb的数据hadoop fs -tail /aa.txt

2.api方式

用得较少，不赘述

wuqiong · wuqiong

不二晨 · 不二晨

奈斯

小影姐姐 · 小影姐姐

牛牛牛！

吴琼老师 · 吴琼老师

不二晨 · 不二晨

优秀

帐号		自动登录	找回密码
密码			加入黑马

【上海校区】HDFS设计思想&主要框架&常用命令

5 个回复