当前位置:首页 > 行业动态 > 正文

分布式存储与计算教学大纲

本课程聚焦分布式存储与计算核心技术,涵盖数据分片、副本机制、一致性协议及MapReduce/Spark框架,结合理论推导与实战演练

教学目标

知识目标

  • 理解分布式系统的基本概念、特性与设计原则
  • 掌握分布式存储(如HDFS、Ceph、NewSQL)与分布式计算(如MapReduce、Spark)的核心机制
  • 熟悉分布式系统容错、一致性、负载均衡等关键技术
  • 了解分布式技术在云存储、边缘计算、区块链等领域的应用

能力目标

  • 能够设计简单的分布式存储架构并实现基础功能
  • 具备优化分布式计算任务的性能瓶颈的能力
  • 熟练使用Hadoop、Spark等主流分布式框架进行开发
  • 通过实验与项目实践,培养问题分析与解决能力

素质目标

  • 培养团队协作与沟通能力(通过分组实验与项目)
  • 强化工程化思维与复杂系统设计能力
  • 提升对前沿技术(如联邦学习、Serverless)的敏感度

与学时分配

模块 章节 核心知识点 学时
分布式系统基础 分布式系统概论 定义、特点、分类;与传统集中式系统的对比;典型应用场景(云存储、分布式数据库) 4
分布式系统设计原则 CAP定理、BASE原则;一致性模型(强一致、最终一致);分区容忍与负载均衡策略 6
分布式存储技术 分布式文件系统 HDFS架构与原理;数据块管理、副本机制;NameNode高可用性设计 8
分布式数据库 Key-Value存储(Redis Cluster)、NewSQL(CockroachDB);事务与一致性协议(Paxos/Raft) 10
新型存储技术 对象存储(MinIO)、分布式块存储(Ceph);存储优化(数据去重、压缩) 6
分布式计算模型 分布式计算框架 MapReduce编程模型;YARN资源调度;Spark内存计算与DAG调度引擎 10
流式与图计算 Flink流处理;Pregel图计算模型;实时计算与批处理结合 8
系统优化与实践 性能优化与容错 数据分片策略;负载均衡算法;故障检测与恢复;监控与日志分析 8
实验与项目实践 基于Hadoop/Spark的数据处理;分布式存储系统仿真;微服务化部署 12

教学方法

  1. 理论讲授:通过PPT、动画演示讲解抽象概念(如CAP定理)
  2. 案例分析:剖析阿里云OSS、Google Spanner等工业级系统设计
  3. 实验教学
    • 工具链:Hadoop集群搭建、Spark应用开发、Kubernetes容器编排

    • | 实验名称 | 内容描述 |
      |——————————|—————————————–|
      | HDFS集群部署与测试 | 配置多节点Hadoop环境,验证数据读写与副本机制 |
      | Spark SQL性能调优 | 优化数据分区、缓存策略与执行计划 |
      | 分布式锁实现(基于Redis) | 模拟高并发场景下的锁机制与死锁处理 |
  4. 项目驱动:分组完成“基于MinIO的云存储服务”或“Spark实时日志分析系统”

考核方式

考核项 占比 说明
平时成绩 30% 出勤、课堂提问、实验报告
期中考试 20% 选择题、简答题、架构设计题
实验与项目 40% 实验完成度、代码质量、项目答辩表现
期末考试 10% 综合应用题(如设计分布式选举算法)

参考教材与资料

  1. 核心教材
    • 《分布式系统:概念与设计》(作者:George Coulouris)
    • 《Hadoop权威指南》(作者:Tom White)
  2. 拓展阅读
    • Google学术论文《MapReduce: Simplified Data Processing on Large Clusters》
    • Apache官方文档(HDFS、Spark、Flink)
  3. 工具与平台
    • 实验环境:VMware虚拟化平台、Docker容器、K8s集群
    • 开源项目:Ceph、ZooKeeper、Apache Kafka

课程特色

  1. 理论与实践结合:通过Mini项目(如搭建小型对象存储系统)深化理解
  2. 前沿技术融合:引入Serverless计算、边缘存储等新兴方向
  3. 多学科交叉:结合网络通信、操作系统、密码学(如分布式一致性算法)

FAQs

问题1:课程难度较高,是否需要先修特定课程?

:建议提前掌握《操作系统》《计算机网络》《数据结构》基础知识,若缺乏分布式系统经验,可通过课程配套的“预备知识自学包”(含视频教程与习题)快速入门。

问题2:实验环境如何配置?是否支持远程访问?

:实验采用Docker容器化部署,学生可通过校园云平台远程访问预装环境(含Hadoop、Spark、Redis),若本地搭建,需准备4核CPU/16GB内存的PC,并参考课程提供的

0