InfraPub 为您找到相关结果 6

Hadoop 核心 - HDFS 分布式文件系统详解

1. HDFS概述 Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及LocalFileSystem(本地文件系统)了。 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。 HDFS(Hadoop Distributed File System)是 Hadoop 项目的一个子项目。是 Hadoop 的核心组件之一, Hadoop 非常适于存储大型数据 (比如 TB 和 PB),其就是使用 HDFS 作为存...阅读全文

Debian下安装配置 Hadoop 3.1.3 集群

/opt/hadoop-3.1.3 /opt/hadoop 3. 在hadoop下创建logs、hdfs/name、hdfs/data 文件夹 mkdir /opt/hadoop/logs mkdir -p /opt/hadoop/hdfs/name mkdir -p /opt/hadoop/hdfs/data 4. hadoop环境变量的配置 新建文件/etc/profile.d/hadoop.sh ,并添加以下内容: # Hadoop environment settings export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 刷新profile变量 # 使profile生效...阅读全文

博文 2019-11-27 23:04:39 debian.cn

高性能日志采集工具 logpipe 简单介绍

日志文件增长,某些应用会在目标目录下产生多个日志文件甚至现在不能确定将来的日志文件名,架构上要支持多输入多输出流式日志采集传输,为了达成以上需求,我研究了所需技术,评估实现难度并不高,就自研了 logpipe。 logpipe 是一个分布式、高可用的用于采集、传输、对接落地的日志工具,采用了插件风格的框架结构设计,支持多输入多输出按需配置组件用于流式日志收集架构,无第三方依赖。 logpipe 的一种用法是能异步实时监控集群里的所有日志目录,一旦有文件新增或追加写,立即采集并传输到大存储上以相同日志文件名合并落地,或者写入 HDFS。异步意味着不影响应用输出日志的性能,实时意味着一有日志立即采集,很多日志采集工具如 flume-ng、logstash 介绍文档通篇不提采集方式是否实时还是周期...阅读全文

Golang 操作 Kafka 样例

,可能是先从RSS数据源中抓取文章的内 容,然后将其丢入一个叫做“文章”的topic中;后续操作可能是需要对这个内容进行清理,比如回复正常数据或者删除重复数据,最后再将内容匹配的结果返 还给用户。这就在一个独立的topic之外,产生了一系列的实时数据处理的流程。 日志聚合:使用Kafka代替日志聚合(log aggregation)。日志聚合一般来说是从服务器上收集日志文件,然后放到一个集中的位置(文件服务器或HDFS)进行处理。然而Kafka忽略掉 文件的细节,将其更清晰地抽象成一个个日志或事件的消息流。这就让Kafka处理过程延迟更低,更容易支持多数据源和分布式数据处理。比起以日志为中心的 系统比如Scribe或者Flume来说,Kafka提供同样高效的性能和因为复制导致的更高的耐用性保证...阅读全文

博文 2023-01-10 13:46:09 掘金

Kafka生产问题总结以及性能优化

{ //开启事务 producer.beginTransaction(); for (int i = 0; i < 100; i++){ //发到不同的主题的不同分区 producer.send(new ProducerRecord<>("hdfs-topic", Integer.toString(i), Integer.toString(i))); producer.send(new ProducerRecord<>("es-topic", Integer.toString(i), Integer.toString(i))); producer.send(new ProducerRecord<>("redis-topic", Integer.toString(i...阅读全文

博文 2023-01-05 23:16:48 CSDN博客

Kafka 3.0新特性全面曝光,真香!

,[一致性]、[可用性](Availability)、[分区容错性](Partition tolerance),这三个要素最多只能同时实现两点,不可能三者兼顾(nosql)。分布式系统为了提高系统的可靠性,一般都会选择使用多副本的方式来进行实现,例如hdfs当中数据的多副本,kafka集群当中分区的多副本等,但是一旦有了多副本的话,那么久面临副本之间一致性的问题,而一致性算法就是 用于解决分布式环境下多副本的数据一致性的问题。业界最著名的一致性算法就是大名鼎鼎的Paxos,但是Paxos比较晦涩难懂,不太容易理解,所以还有一种叫做Raft的算法,更加简单容易理解的实现了一致性算法。(一)Raft协议的工作原理Raft协议当中的角色分布Raft协议将分布式系统当中的角色分为Leader(领导者...阅读全文

博文 2022-04-28 16:02:11 mp.weixin.qq.com