HDFS概述

HDFS定义

HDFS是一个文件系统，用于存储文件，荣国目录树来定义文件；其次，他是分布式的，又很多服务器联合实现其功能，集群中的服务器有各自的角色。

HDFS的使用场景：适合一次性读写，多次读出的场景，且不支持文件的修改。适合用来做数据分析，不适合频繁修改的网盘应用。

NameNode：就是Master，是管理者。
- 管理HDFS的名称空间
- 配置副本策略
- 管理数据块映射信息
- 处理客户端读写请求
DataNode：就是Slave，NameNode下达命令，DataNode执行实际的操作
- 存储实际的数据块
- 执行数据块的读/写操作
Client：客户端
- 文件切分。文件上传HDFS的时候，Client将文件切分成一个个的Block，然后进行上传
- 与NameNode交互，获取文件的位置信息
- 与DataNode交互，读取或者写入数据
- Client提供一些命令来管理HDFS，比如NameNode格式化
- Client可以通过一些命令来访问HDFS，比如对HDFS增删查改操作
Secondary NameNode：并非NameNode的热备。当NameNode挂掉了，它并不能马上替换NameNode并提供服务
- 服务NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode
- 在紧急情况下，可辅助恢复NameNode

HDFS中的文件在物理上是分块（Block）存储的，块的大小可以通过配置参数（dfs.blocksize）来配置，默认大小在Hadoop2中是128M，老版本是64M

HDFS的块大小配置太小会增加寻址时间，程序一直在找块的开始位置，如果设置太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢。所以HDFS块的大小设置主要取决去磁盘的传输速率