【HDFS篇14】HA高可用 --- Federation架构设

心累的时候不妨停下来休息一下,好好收拾一下情绪在继续前进 Federation架构设计 1. NameNode架构的局限性 (1)Namespace(命名空间)的限制 ​ 由于NameNode在内存中存储所有的元数据(metadata),因此单个NameNode所能存储的对象(文件+块)数目受到Na ...

focusbigdata @ 2020/07/17

【HDFS篇13】HA高可用 --- YARN-HA集群配置

放弃很简单,但坚持一定很酷 YARN-HA集群配置 YARN-HA工作机制 1.官方文档 http://hadoop.apache.org/docs/r2.7.2/hadoop-yarn/hadoop-yarn-site/ResourceManagerHA.html 2.工作机制图 其实就是配置多台 ...

focusbigdata @ 2020/07/15

【HDFS篇12】HA高可用 --- HDFS-HA集群配置

保持自己的节奏前进就对了 HDFDS-HA集群配置 (一)环境准备 修改IP 修改主机名及主机名和IP地址的映射 关闭防火墙 ssh免密登录 安装JDK,配置环境变量等 (二)规划集群 看出我们将NameNode分布到两台机器上,保证集群的高可用性 hadoop102 hadoop103 hadoo ...

focusbigdata @ 2020/07/13

【HDFS篇11】HA高可用

先达到极限,然后再突破它 HA高可用 HA概述 所谓HA(High Available),即高可用(7*24小时不中断服务)。 实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。 Hadoop2.0之前,在HDFS集群中NameNode存在 ...

focusbigdata @ 2020/07/11

【HDFS篇10】DataNode相关概念

答应我一次做好一件事情就可以了 DataNode相关概念 DataNode工作机制 一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 DataNode启动后向NameNode注册,通过后,周期性(1小时)的 ...

focusbigdata @ 2020/07/09

【HDFS篇09】集群安全模式

一个微小的投入就会带来巨大的突变 集群安全模式 为什么出现集群安全模式呢? ​ Namenode启动时,首先将镜像文件载人内存,并执行编辑日志中的各项操作。一旦在內存中成功建立文件系统元数据的映像,则创建一个新的Fsimage文件和一个空的编辑日志。此时,** Namenode开始监听Datanod ...

focusbigdata @ 2020/07/09

【HDFS篇08】NameNode故障处理

记住,你的记忆效率=线索数量*线索质量 NameNode故障处理 问题场景:只配置了一个NameNode作为主节点,当它宕掉后如何恢复数据呢? 方法一:拷贝SNN数据到NN存储数据的目录中 kill -9 NameNode进程 删除NameNode存储的数据(/opt/module/hadoop-2 ...

focusbigdata @ 2020/07/09

【HDFS篇07】NameNode和SecondearyNameNode

对未来真正的慷慨,是把一切献给现在 NameNode和SecondaryNameNode工作机制 第一阶段:NameNode启动 (1)第一次启动NameNode格式化后,创建Fsimage和Edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。 Fsimage文件(镜像文件):HD ...

focusbigdata @ 2020/07/08

【HDFS篇06】HDFS数据读写流程

不断关联,不断加入,不断迭代,不断应用 HDFS数据读写流程 HDFS写数据流程 客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 NameNode返回是否可以上传。 客户端请求第一个 Block上传到 ...

focusbigdata @ 2020/07/07

【HDFS篇04】HDFS客户端操作 --- 文件操作

只有当知识写进你的长时记忆区,才是真正的学习 HDFS客户端操作 文件操作 参数优先级测试 1.编写测试方法,设置文件副本数量 @Test public void testCopyFromLocalFile() throws IOException, InterruptedException, UR ...

focusbigdata @ 2020/07/07

【HDFS篇05】HDFS客户端操作 --- IO流操作

输出倒逼输入 HDFS客户端操作 IO流操作 HDFS文件上传 @Test public void putFileToHDFS() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件系统 Configura ...

focusbigdata @ 2020/07/06

【HDFS篇03】HDFS客户端操作 --- 开发环境准备

存储越困难,提取越容易 HDFS客户端操作 开发环境准备 步骤一:编译对应HadoopJar包,配置Hadoop变量 步骤二:创建Maven工程,导入pom依赖 <dependencies> <dependency> <groupId>junit</groupId> <artifactId>juni ...

focusbigdata @ 2020/07/04

【软件工具篇02】使用Anki克服遗忘曲线

使用Anki克服遗忘曲线 艾宾浩斯遗忘曲线 百度百科:遗忘曲线由德国心理学家艾宾浩斯研究发现,描述了人类大脑对新事物遗忘的规律。人体大脑对新事物遗忘的循序渐进的直观描述,人们可以从遗忘曲线中掌握遗忘规律并加以利用,从而提升自我记忆能力。该曲线对人类记忆认知研究产生了重大影响。 关键词:新事物遗忘,提 ...

focusbigdata @ 2020/07/04

【HDFS篇02】HDFS命令行操作

完成永远比完美重要 HDFS的Shell操作 基本语法 hadoop fs 具体命令【推荐】 hdfs dfs 具体命令 常用命令大全 启动Hadoop集群 // 这些命令也都可以按照自己的方式组成脚本哦 start-dfs.sh start-yarn.sh -help:输出这个命令参数 hadoo ...

focusbigdata @ 2020/07/03

【HDFS篇01】HDFS入门概述

真正的学习是去探索,思考和重建 HDFS产生背景 ​ 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 HDFS定义 ​ HDF ...

focusbigdata @ 2020/07/03

【Hadoop篇09】Hadoop序列化

知之为知之,不知为不知 Hadoop序列化 序列化概念 ​ 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。 序列化作用 ​ “活的”对象只生存在内存里,关机断电就 ...

focusbigdata @ 2020/07/03

【软件工具篇01】如何用思维导图构建自己的知识体系

如何用思维导图构建自己的知识体系 思维导图是什么 百度百科上说 思维导图,英文是The Mind Map,又叫心智导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具 关键词:发散性思维,图形思维工具 思维导图的作用 大脑的思考方式是放射性的,我们能思考总是先关注一个 ...

focusbigdata @ 2020/07/01

【Hadoop篇08】Hadoop数据压缩

简洁而不简单 Hadoop数据压缩 数据压缩优点和缺点 ​ 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在 Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,IO操作和网络数据传输要花大量的时间。还有, ...

focusbigdata @ 2020/07/01

【Hadoop篇06】Hadoop源码编译

没有谁必须要帮助你,任何事情都得靠自己去完成 Hadoop源码编译 准备工作 (1)CentOS联网 配置CentOS能连接外网。Linux虚拟机ping是畅通的 注意:采用root角色编译,减少文件夹权限出现问题 (2)jar包准备(hadoop源码、JDK8、maven、ant 、protobu ...

focusbigdata @ 2020/06/30

【Hadoop篇07】Hadoop集群脚本编写

积极乐观的态度是解决任何问题和战胜任何困难的第一步 Hadoop集群脚本编写 编写分发文件脚本 应用场景如下:比如有三台主机master1,slave1,slave2 如果简历完全分布式的集群就需要将文件从master1拷贝到slave从机上 那么可以使用rsync命令分发单个文件,也可以使用如下脚 ...

focusbigdata @ 2020/06/30