当前位置：首页 > 行业动态 > 正文

hadoop存储结构

Hadoop存储结构基于HDFS，包含NameNode和DataNode，数据分块存储，默认三副本，元数据由NameNode管理，支持

Hadoop存储结构深度解析

Hadoop分布式文件系统（HDFS）采用主从架构设计，其存储结构由以下核心组件构成：

存储层级关系：

HDFS集群 → [NameNode元数据] + [多个DataNode数据块]
    ↑             ↑
文件系统命名空间   物理存储资源池

块划分规则：
- 文件被拆分为固定大小的数据块（可配置，默认128MB）
- 最后一个块可能小于标准块大小
- 块ID采用UUID+块序号生成机制
数据块结构：
| 组成部分 | 作用 |
|—————–|——————————-|
| 块头部 | 存储校验码、版本号、元数据指针 |
| 数据主体 | 实际存储文件内容 |
| 校验尾 | CRC循环冗余校验（可选配置） |
存储示例：
假设上传文件/user/data/file.txt（大小350MB）：
- 被拆分为3个数据块：block_128MB, block_128MB, block_94MB
- 每个块分配3个副本（默认策略）
- 物理存储分布：
```
Block1 → DN1(rackA), DN2(rackB), DN3(rackA)
Block2 → DN4(rackB), DN5(rackC), DN1(rackA)
Block3 → DN6(rackC), DN2(rackB), DN7(rackD)
```

NameNode通过以下方式管理海量元数据：

hadoop存储结构第1张

树形目录结构：
- 采用类似Linux的层级路径设计
- 每个目录项包含权限、所有者、时间戳等属性
- 文件与块的映射关系表（fsimage）
元数据持久化：
- 操作日志（EditLog）记录每次变更
- 定期合并fsimage+EditLog生成新快照
- SecondaryNameNode负责合并操作（非实时同步）
内存优化策略：
- 仅将最近访问的元数据加载到内存
- 老数据通过磁盘文件管理
- 单NameNode可支持千万级文件的管理能力

副本存储策略：
- 默认3副本策略（可配置）
- 机架感知算法：
```
副本分配优先级：
1. 本机 → 2. 同机架其他节点 → 3. 不同机架节点
```
- 副本分布示例：
  | 副本序号 | 存储节点 | 机架位置 |
  |———-|—————-|————|
  | 副本1 | DN1(rackA) | rackA |
  | 副本2 | DN2(rackB) | rackB |
  | 副本3 | DN3(rackA) | rackA |
数据完整性验证：
- 每个数据块生成校验和（Checksum）
- 客户端读取时自动验证数据完整性
- 损坏块自动触发副本重建机制

写入流程：

读取流程：

传统单NameNode存在单点故障风险,Hadoop 2.x后引入HA模式：

双NameNode架构：
- Active NameNode处理客户端请求
- Standby NameNode热备状态
- JournalNode集群实现元数据同步

故障切换过程：

Standby检测到Active故障
2. 通过ZooKeepr完成角色切换
3. 新Active加载最新元数据
4. 客户端重定向连接