CheckPoint and DataNode

目录

Check Point时间设置(NameNode)

DataNode工作机制

DataNode数据完整性

DataNode掉线时限参数设置

HDFS章节总结(重点)


Check Point时间设置(NameNode)

Check Point 工作机制图

图片来源尚硅谷 

(1)通常情况下,SecondaryNameNode(2NN)每隔一小时执行一次

<property>
 <name>dfs.namenode.checkpoint.period</name>
 <value>3600s</value>
</property>

(2)一分钟检查一次操作次数,当操作达到一百万时,SecondaryNameNode(2NN)执行一次

</property>
<name>dfs.namenode.checkpoint.txns</name>
 <value>1000000</value>
<description>操作动作次数</description>
</property>
<property>
 <name>dfs.namenode.checkpoint.check.period</name>
 <value>60s</value>
<description> 1 分钟检查一次操作次数</description>
</property>

DataNode工作机制

工作机制图

图片来源尚硅谷

1、一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。

2、DataNode启动后向NameNode注册,通过后,周期性为(6小时)的向NameNode上报所有的块信息。

DN 向 NN 汇报当前解读信息的时间间隔,默认 6 小时

<property>
<name>dfs.blockreport.intervalMsec</name>
<value>21600000</value>
<description>Determines block reporting interval in 
milliseconds.</description>
</property>

DN 扫描自己节点块信息列表的时间,默认 6 小时

<property>
<name>dfs.datanode.directoryscan.interval</name>
<value>21600s</value>
<description>Interval in seconds for Datanode to scan data 
directories and reconcile the difference between blocks in memory and on 
the disk.
Support multiple time unit suffix(case insensitive), as described
in dfs.heartbeat.interval.
</description>
</property>

3、心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块信息到另一台机器,或删除某个数据块。如果超过10分钟没有收到DataNode的心跳,则认为该节点不可用

4、集群运行中可以安全加入和退出一些机器

DataNode数据完整性

DataNode节点保证数据完整性的方法

1、当DataNode读取Block的时候,它会计算CheckSum。

2、如果计算后的CheckSum,与Block创建时值不一样,说明Block已经损坏。

3、Client 读取其他 DataNode 上的 Block。

4、常见的校验算法 crc(32),md5(128),sha1(160)

5、DataNode 在其文件创建后周期验证 CheckSum。

如何判断数据是否准确;校验法;

图片来源于尚硅谷

DataNode掉线时限参数设置

DataNode掉线时限参数设置解读图‘

 如果定义超时时间为TimeOut,则超时时长的计算公式为:

TimeOut=2*dfs.namenode.heartbeat.recheck-interval+10*dsf.heartbeat.interval

默认的dfs.namenode.heartbeat.recheck-interval大小为5分钟;dsf.heartbeat.interval默认为3秒

需要注意的是 hdfs-site.xml 配置文件中的 heartbeat.recheck.interval 的单位为毫秒,dfs.heartbeat.interval 的单位为秒。

<property>
 <name>dfs.namenode.heartbeat.recheck-interval</name>
 <value>300000</value>
</property>
<property>
 <name>dfs.heartbeat.interval</name>
 <value>3</value>
</property>

HDFS章节总结(重点)

1、HDFS文件块大小(面试重点)

硬盘读写速度:一般速度为128m(中小公司)/256m(大公司)

2、HDFS的shell操作(开发重点)

3、HDFS的读写流程(面试重点)

笨鸟先-森
关注 关注
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
HDFS】写入过程中如果有DataNode掉线了会发生什么?
Badme
08-27 922
HDFS】写入过程中如果有DataNode掉线了会发生什么?
namenodedatanode工作机制_HDFS的namenodedatanode详解
weixin_39942572的博客
12-19 1359
一、概述HDFS集群以Master-Slave模式运行,主要有两类节点:一个Namenode(即Master)和多个Datanode(即Slave)。HDFS Architecture: 二、NamenodeNamenode 管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个,...
DataNode工作机制
mischen520的博客
05-04 272
(1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 (2)DataNode启动后向NameNode注册,通过后,周期性(6小时)的向NameNode上报所有的块信息。 DN向NN汇报当前解读信息的时间间隔,默认6小时; <property> <name>dfs.blockreport.intervalMsec</name> <value&gt...
HadoopDataNode节点下线速度优化
康师傅没有眼泪
12-31 2508
具体上面参数的值设定的多少,取决于集群的规模和集群的配置,不能同一而论。几十T, 甚至上百T, 上百万block的节点掉线,会出现大量的RPC风暴,在我们存在大量小文件的集群对namenode是很大的挑战,不仅影响生产性能,也会存在很大的隐患,尤其是对于带宽有限制瓶颈的集群。然后namenode根据该节点的ip,查出该节点所有的blockid,以及对应副本所在机器,通过心跳机制安排数据复制,这时候数据的复制,数据源不在是掉线节点,而是多个副本之一所在的节点,同样这时候副本复制也遵循机架感知,副本搁置策略。
HDFS在上传文件的时候,如果其中一个DataNode突然挂掉了怎么办?
星空下的那个人影
04-29 2888
客户端上传文件时与DataNode建立pipeline管道,管道正向是客户端向DataNode发送的数据包,管道反向是DataNode向客户端发送ack确认,也就是正确接收到数据包之后发送一个已确认接收到的应答; 当DataNode突然挂掉了,客户端接收不到这个DataNode发送到ack确认,客户端会通知NameNode,NameNode检查该块的副本与规定的不符,NameNode会通知DataNode去复制副本,并将挂掉的DataNode作下线处理,不再让它参与文件上传与下载。 ...
Hadoop
niki__的博客
02-14 534
hadoop学习笔记
Hadoop2.8.5 数据节点 DataNode
Sherlock的博客
01-30 1073
数据节点 DataNodeHDFS 文件系统中处于从属的地位, 但是其结构却比处于主导地位的查名节点 NameNode 更复杂。这是因为:虽然 NameNode 起着目录的作用,但是文件的内容却是存储在 DataNode 上的,读写文件时一旦知道了哪一个块在什么节点上,或者指定存放在什么节点上,下面就不需要 NameNode 的介入了。而块的存取,却是颇为复杂的操作。再说 NameNode ...
namenodedatanode区别
liyabing1的博客
04-13 5715
一、namenode 接收用户操作请求 维护文件系统的目录结构 管理文件与block之间关系,block与datanode之间关系 namenode管理:namenode支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文件和目录等基本操作。 块存储管理 在整个HDFS集群中有且只有唯一一个处于active状态namenode节点,该节点负责对这个命名空间(HDFS)进行管理...
HDFS之namenodedatanode理解
热门推荐
窃格拉瓦
08-16 2万+
一、HDFS集群   HDFS集群有两类节点以管理节点-工作节点模式运行,即一个namenode(管理节点)和多个datanode(工作节点)。namenode管理文件系统的命名空间。它维护着文件系统树及整棵树内的所有文件和目录。这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像文件和编辑日志文件。namenode也记录着每个文件中各个块所在的数据节点信息,但是它并不会永久保存块的位置信息...
2021-12-05 datanode存储相关(一):storage管理
cn987654的博客
12-05 2454
基于源码hadoop-3.3.0 1 概述 众所周知,dn主要是用来存储hadoop集群中的具体的数据的。但实际上,Datanode还是需要保存一部分Datanode自身的元数据的, 这些元数据是通过Datanode磁盘存储上的一些文件和目录来保存的。 Datanode可以定义多个存储目录保存数据块,Datanode的多个存储目录存储的数据块并不相同,并且不同的存储目录可以是异构的, 这样的设计可以提高数据块IO的吞吐率[比如多块磁盘]。 1.1 实际存储 下面看一个实际中的存储: 我们
分享一个Flink checkpoint失败的问题和解决办法
HeapDump性能社区的博客
08-14 2565
本文来自: PerfMa技术社区 PerfMa(笨马网络)官网 接触Flink一段时间了,遇到了一些问题,其中有一个checkpoint失败导致作业重启的问题,遇到了很多次,重启之后一般也能恢复正常,没有太在意,最近2天有同事又频繁遇到,这里记录一下解决方案和分析过程。 我们的flink测试环境有3个节点,部署架构是每个flink节点上部署一个HDFSDataNode节点,hdfs用于flink的checkpoint和savepoint 现象 看日志是说有个3个datanode活着,文件副本是1,但.
浅析NameNode/DataNode/SecondaryNameNode源码注释
乔治大哥的博客
10-25 215
NameNode源码注释 /********************************************************** * NameNode serves as both directory namespace manager and * "inode table" for the Hadoop DFS. There is a single NameNode ...
11HDFS的读写流程&NameNodeDataNode工作机制——好程序
火麒马
02-20 570
namenode的工作机制
HDFS副本摆放策略&checkpoint机制&safemode模式
kokopop007的博客
07-27 435
一.HDFS Replica Placement policy 如果副本摆放的机制不好的话,在计算的过程当中,很大可能会数据的传输,这样对于带宽,磁盘的IO影响是很大的。 HDFS’s placement policy is to put one replica on the local machine if the writer is on a datanode, otherwise on a ...
【Pyspark-驯化】一文搞懂Pyspark中表连接的使用技巧
志在创建优质博客、通俗易懂、助力大家提高学习效率!
08-12 1544
在数据处理和分析中,表连接(Join)是一种常用的操作,用于将两个或多个表中满足特定条件的数据行组合在一起。PySpark提供了多种连接函数,允许用户根据不同的键进行内连接、外连接、左连接和右连接。PySpark中的连接函数是处理和分析数据集的重要工具。通过本博客的代码示例,我们学习了如何使用不同的连接类型和条件来合并数据。希望这篇博客能够帮助你更好地理解PySpark中的连接操作,并将其应用于实际的数据处理任务中。
大数据之——HadoopHDFS、YARN、MapReduce
最新发布
m0_73991249的博客
10-21 833
如何看他们的关系?首先HDFS将【NameNode】部署到一个节点先,分出多个【DataNode】分布到各个节点上,里面分别存储了将总的海量数据分散了的【子数据】,最后还要有一个节点有【Secondary NameNode】来备份【NameNode】的数据;
Hadoop 迁移到数据 Lakehouse 的架构师指南
MinIO
10-18 661
Hadoop 到数据湖仓一体架构的演变代表了数据基础架构的重大飞跃。虽然 Hadoop 曾经以其强大的批处理能力统治着大数据领域,但如今的组织正在寻求更敏捷、更具成本效益和现代化的解决方案。尤其是当他们越来越多地开始实施 AI 计划时。根本没有办法让 Hadoop 为 AI 服务。相反,越来越多的人正在迁移到数据湖仓一体架构,该架构结合了数据湖和数据仓库的优点,并提供处理现代数据工作负载所需的可扩展性、性能和实时功能。
【wpf】08 xml文件的存取操作
kewaqi618的博客
10-18 745
在使用wpf编程过程中,会用到xml的配置文件,实现对其读取和存储的操作是必须的。
写文章

热门文章

  • Xshell远程连接服务器 3952
  • Flink--- 批处理 / 流处理 3322
  • Flink、Hive、Flume 2664
  • Flink-提交job 2361
  • Kafka分区原则 2312

分类专栏

  • flume 1篇

最新评论

  • Flink-提交job

    笨鸟先-森: window系统

  • Flink-提交job

    草坪头: xsync flink-1.10.0 。楼主,请问你是使用ubuntu虚拟机部署的吗?我一直卡在这步了,请指教表情包

  • 消费Kafka数据存入HBase(Scala)

    crush.522: 求带带表情包表情包表情包表情包

  • HBase 写入数据(Scala代码)

    crush.522: 求带表情包表情包

  • Flink-提交job

    笨鸟先-森: 因为我用的是Hadoop102这台机器呀

最新文章

  • Flume v1.9.0启动报错ERROR - org.apache.flume.sink.hdfs.HDFSEventSink.process(HDFSEventSink.java:459)
  • hbase代码报错(以及解决方法)
  • 大数据技能竞赛(需要提供相关答疑私信)
2023年9篇
2022年56篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家吉林雕塑玻璃钢玻璃钢人像雕塑新仕军制作内蒙古圣诞老人玻璃钢雕塑成都商场美陈玻璃钢卡通雕塑滁州景观玻璃钢雕塑多少钱佛像玻璃钢雕塑设计公司河北佛像玻璃钢雕塑生产厂家玻璃钢雕塑贸易公司肥东商场美陈湖州玻璃钢人物雕塑定做价格广东商场创意商业美陈费用销售好的大型玻璃钢雕塑玻璃钢驴子造型雕塑河源美陈玻璃钢雕塑玻璃钢仿铜修鞋雕塑贵阳定制玻璃钢雕塑制作贵港商场美陈广东高质量玻璃钢雕塑多少钱宝鸡人物玻璃钢仿铜雕塑淮南佛像玻璃钢雕塑广东景区玻璃钢雕塑市场永州玻璃钢卡通雕塑天津人物玻璃钢雕塑设计湛江玻璃钢财神雕塑商场美陈模式郑州太湖石玻璃钢彩绘雕塑小品玻璃钢桃子雕塑出售上饶环保玻璃钢雕塑玻璃钢雕塑价格大概多少钱一吨玻璃钢雕塑条件香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化