大数据存储复习课 | 逐水寻源

Tim 收录于学习笔记数据科学与机器学习和课程笔记

2023-02-13 2025-11-28 约 1600 字预计阅读 4 分钟 - 次阅读

目录

1 考试题型

论述题（30分） -论述自己对概念的理解
分布式数据库设计及查询优化（20） -分布式数据库的设计，分片的设计、定义、对应的查询优化
分布式存取优化（30） -物理上的特征指标、传输代价的计算
存储结构设计（10） -HBase设计、布隆过滤器设计（PPT）
分布式事务（10） -一致性、并发控制三次作业分别对应了2、3、4项

2 章节回顾

2.1 第一章

大数据的由来（为什么会产生大数据存储系统？横向拓展需求、系统可靠可用、一致性需求在传统的关系模型下无法有效解决）
大数据的特点
大数据需要怎样的存储系统

2.2 第二章

客户/服务器的体系结构（不同体系结构中AP功能的变化）
share nothing 架构、分库分表架构、存算分离架构与客户/服务器架构之间的关系（开放性问题，结合PPT与自己的理解）参考文章
关系型分布式数据库系统的模式结构
分布式数据库系统的数据透明性（三种、定义，举例；给操作语句判定是那种透明性）
多数据库系统和分布式数据库系统的区别与联系

2.3 第三章

分布式数据库设计的分片原则、定义（运算）、表示方法
分布式数据库的查询优化策略及片段查询优化方法
分布式查询的存取优化方法、特征参数的计算（选择运算、投影运算、自然连接运算、半连接运算）

2.4 第四章

HBase解决了HDFS的哪些问题？具有哪些特点？
HBase数据库中region的含义及其特性。同一个表不同行的数据可以存放在不同的服务器，同一个表相同行的数据也可以存放在不同的服务器。这句话如何理解？

一个服务器是Region的存储机构，但存储一个Region不代表存储一个表；每个Region都包含若干个Store，一个Store就是一个列族，是把列族作为对象存储的，不一定是一个表的，可能是不同表的分片。

HBase增删改查的真正操作内容是什么？
HBase的读写流程

HDFS 的优势：（大文件存储、多副本、自动分块）

如果仅用HDFS进行数据管理，存在一些问题：
HDFS不支持对数据的随机改写
HDFS没有数据表的概念
HDFS无法针对行数统计、过滤扫描等常见数据查询
功能实现快捷操作，一般需要通过Mapreduce实现。

HBase底层采用HDFS存储，但是文件结构和元数据等自身维护。具体来说具有以下特点：

采用面向列加键值对的存储模式
可实现便捷的横向扩展
可以实现自动的数据分片
实现较为严格的读写一致性和自动故障转移
实现对全文的检索与过滤（过滤器）

2.5 第五章

每种数据结构主要解决什么样的问题（场景）？实现原理？例如跳表主要支持快速写入，支持区间查询，更新代价低。B+树虽然也支持，但更新代价高，不支持大数据场景。LSM树跳表（内存）和多路文件归并、布隆过滤器（外存）的结合。

（1）跳跃表

解决的问题类型（快速写入、更新代价低、支持区间查询)
查找和插入的流程（实现原理）跳表是LSM树的内存结构；（2）LSM树
解决的问题类型（“顺序写入，随机查找”）
什么是compaction？分为哪两种类型？优缺点。
为什么说LSM树是一种写入友好的数据结构？

（3）布隆过滤器

解决的问题类型（有效排除一些对象）
构造方法和查询过程（实现原理）

（4）为什么说HBase是一种“顺序写入，随机查找”的分布式数据库？

2.6 第六章

嵌套事务的概念
分布式数据库的一致性级别的内容，并可举例说明
分布式数据库的CAP理论和BASE理论（会举例说明）
分布式事务提交协议（两阶段提交协议执行流程，存在的问题-阻塞，解决的方法-终结协议）
HBase的一致性ACID特性的实现方法（了解）
分布式一致性算法Paxos（主要流程）

2.7 第七章

并发控制的基本概念（解决的问题、可串行化调度）
分布式并发控制解决的问题（三种分布式锁的应用场景、方案思路）
分布式事务可串行化判定（题目）
三种分布式锁的应用场景及具体解决方案

收录于合集・课程笔记 9

大数据架构课程复习笔记大数据存储课程笔记

Buy me a coffee~

赞赏

Tim 支付宝

支付宝

Tim 贝宝

贝宝

Tim 微信

微信