上一篇
分布式存储与计算教学大纲
- 行业动态
- 2025-05-15
- 1
本课程聚焦分布式存储与计算核心技术,涵盖数据分片、副本机制、一致性协议及MapReduce/Spark框架,结合理论推导与实战演练
教学目标
知识目标
- 理解分布式系统的基本概念、特性与设计原则
- 掌握分布式存储(如HDFS、Ceph、NewSQL)与分布式计算(如MapReduce、Spark)的核心机制
- 熟悉分布式系统容错、一致性、负载均衡等关键技术
- 了解分布式技术在云存储、边缘计算、区块链等领域的应用
能力目标
- 能够设计简单的分布式存储架构并实现基础功能
- 具备优化分布式计算任务的性能瓶颈的能力
- 熟练使用Hadoop、Spark等主流分布式框架进行开发
- 通过实验与项目实践,培养问题分析与解决能力
素质目标
- 培养团队协作与沟通能力(通过分组实验与项目)
- 强化工程化思维与复杂系统设计能力
- 提升对前沿技术(如联邦学习、Serverless)的敏感度
与学时分配
模块 | 章节 | 核心知识点 | 学时 |
---|---|---|---|
分布式系统基础 | 分布式系统概论 | 定义、特点、分类;与传统集中式系统的对比;典型应用场景(云存储、分布式数据库) | 4 |
分布式系统设计原则 | CAP定理、BASE原则;一致性模型(强一致、最终一致);分区容忍与负载均衡策略 | 6 | |
分布式存储技术 | 分布式文件系统 | HDFS架构与原理;数据块管理、副本机制;NameNode高可用性设计 | 8 |
分布式数据库 | Key-Value存储(Redis Cluster)、NewSQL(CockroachDB);事务与一致性协议(Paxos/Raft) | 10 | |
新型存储技术 | 对象存储(MinIO)、分布式块存储(Ceph);存储优化(数据去重、压缩) | 6 | |
分布式计算模型 | 分布式计算框架 | MapReduce编程模型;YARN资源调度;Spark内存计算与DAG调度引擎 | 10 |
流式与图计算 | Flink流处理;Pregel图计算模型;实时计算与批处理结合 | 8 | |
系统优化与实践 | 性能优化与容错 | 数据分片策略;负载均衡算法;故障检测与恢复;监控与日志分析 | 8 |
实验与项目实践 | 基于Hadoop/Spark的数据处理;分布式存储系统仿真;微服务化部署 | 12 |
教学方法
- 理论讲授:通过PPT、动画演示讲解抽象概念(如CAP定理)
- 案例分析:剖析阿里云OSS、Google Spanner等工业级系统设计
- 实验教学:
- 工具链:Hadoop集群搭建、Spark应用开发、Kubernetes容器编排
- :
| 实验名称 | 内容描述 |
|——————————|—————————————–|
| HDFS集群部署与测试 | 配置多节点Hadoop环境,验证数据读写与副本机制 |
| Spark SQL性能调优 | 优化数据分区、缓存策略与执行计划 |
| 分布式锁实现(基于Redis) | 模拟高并发场景下的锁机制与死锁处理 |
- 项目驱动:分组完成“基于MinIO的云存储服务”或“Spark实时日志分析系统”
考核方式
考核项 | 占比 | 说明 |
---|---|---|
平时成绩 | 30% | 出勤、课堂提问、实验报告 |
期中考试 | 20% | 选择题、简答题、架构设计题 |
实验与项目 | 40% | 实验完成度、代码质量、项目答辩表现 |
期末考试 | 10% | 综合应用题(如设计分布式选举算法) |
参考教材与资料
- 核心教材:
- 《分布式系统:概念与设计》(作者:George Coulouris)
- 《Hadoop权威指南》(作者:Tom White)
- 拓展阅读:
- Google学术论文《MapReduce: Simplified Data Processing on Large Clusters》
- Apache官方文档(HDFS、Spark、Flink)
- 工具与平台:
- 实验环境:VMware虚拟化平台、Docker容器、K8s集群
- 开源项目:Ceph、ZooKeeper、Apache Kafka
课程特色
- 理论与实践结合:通过Mini项目(如搭建小型对象存储系统)深化理解
- 前沿技术融合:引入Serverless计算、边缘存储等新兴方向
- 多学科交叉:结合网络通信、操作系统、密码学(如分布式一致性算法)
FAQs
问题1:课程难度较高,是否需要先修特定课程?
答:建议提前掌握《操作系统》《计算机网络》《数据结构》基础知识,若缺乏分布式系统经验,可通过课程配套的“预备知识自学包”(含视频教程与习题)快速入门。
问题2:实验环境如何配置?是否支持远程访问?
答:实验采用Docker容器化部署,学生可通过校园云平台远程访问预装环境(含Hadoop、Spark、Redis),若本地搭建,需准备4核CPU/16GB内存的PC,并参考课程提供的