InfraPub 为您找到相关结果 9

Debian下安装配置 Hadoop 3.1.3 集群

在这篇文章里,我将在 VMWare 里面虚拟四台 Debian 虚拟机,一个做master,三个slave。这四台主机的 hostname 分别是 master、slave1、slave2、slave3。下面的 JDK 和 Hadoop 安装配置操作都是使用普通用户 hadoop 来执行,并非 root。 集群环境准备 1. 静态网络的配置 编辑/etc/network/interfaces文件,注释自动获取IP,并添加下面内容 # static IP address auto ens33 iface ens33 inet static address 192.168.20.101 netmask 255.255.255.0 gateway 192.168.20.2 dns...阅读全文

博文 2019-11-27 23:04:39 debian.cn

Hadoop 核心 - HDFS 分布式文件系统详解

1. HDFS概述 Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及LocalFileSystem(本地文件系统)了。 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。 HDFS(Hadoop Distributed File System)是 Hadoop 项目的一个子项目。是 Hadoop 的核心组件之一, Hadoop 非常适于存储大型数据 (比如 TB 和 PB),其就是使用 HDFS 作为存...阅读全文

Google 开源漏洞扫描系统 Tsunami

系统时执行两步过程: 第一步是侦查,在此期间,Tsunami 会扫描公司网络中的开放端口。此后,它会测试每个端口并尝试识别在它们上运行的协议和服务,以防止因错误标记端口和测试设备的漏洞所造成的假漏洞。 第二步是漏洞验证,在这里 Tsunami 使用通过侦察收集的信息来确认是否存在漏洞。为此,漏洞扫描程序会尝试完整地良性执行这个漏洞。漏洞验证模块还允许通过插件来扩展Tsunami。 在初始版本中,Tsunami 随附了用于以下安全问题的检测器: Exposed sensitive UIs:Jenkins,Jupyter和Hadoop Yarn之类的应用程序附带了UI,这些UI允许用户调度工作负载或执行系统命令。如果这些系统未经身份验证就暴露在Internet上,则攻击者可以利用应用程序的功能来...阅读全文

博文 2020-07-16 10:25:50 debian.cn

Kafka 3.0新特性全面曝光,真香!

,controller.quorum.voters 配置中提供的节点ID必须与提供给服务器的节点ID匹配。比如在Controller1上,node.Id必须设置为1,以此类推。注意,控制器id不强制要求你从0或1开始。然而,分配节点ID的最简单和最不容易混淆的方法是给每个服务器一个数字ID,然后从0开始。(二)下载并解压安装包bigdata01下载kafka的安装包,并进行解压:[hadoop@bigdata01 kraft]$ cd /opt/soft/[hadoop@bigdata01 soft]$ wget http://archive.apache.org/dist/kafka/3.1.0/kafka_2.12-3.1.0.tgz[hadoop@bigdata01 soft]$ tar -zxf kafka_2.12-3.1.0...阅读全文

博文 2022-04-28 16:02:11 mp.weixin.qq.com

Linux下多线程程序为什么消耗大量虚拟内存

nasty issues for obvious reasons. Setting MALLOC_ARENA_MAX to a low number will restrict the number of memory arenas and bound the virtual memory, with no noticeable downside in performance – we’ve been recommending MALLOC_ARENA_MAX=4. We should set this in hadoop-env.sh to avoid this issue as RHEL6 becomes more and more common. 总结一下,glibc为了分配内存的性能的问题...阅读全文

博文 2015-01-28 10:35:39 debian.cn

Docker 快速入门之 Dockerfile

干嘛的,其中有一些对文件的操作,因此我们先来看看用于存放 Dockerfile 的这个目录的目录结构: # tree . . ├── Dockerfile ├── index_files │ ├── 145049z4og8xyjhx4xy8go.jpg │ ├── 222746e5vh38d7ey3leyps.jpg │ ├── 88x31.png │ ├── archlinux-splash.png │ ├── bdshare.css │ ├── Best-Linux-Markdown-Editors.png │ ├── core.js │ ├── docker-icon.jpg │ ├── hadoop-pic1.png │ ├── jquery_002.js...阅读全文

博文 2017-12-16 13:50:31 debian.cn

Golang 操作 Kafka 样例

有更好的吞吐量,内置的分区,冗余及容错性,这让Kafka成为了一个很好的大规模消息处理应用的解决方案。消息系统 一般吞吐量相对较低,但是需要更小的端到端延时,并尝尝依赖于Kafka提供的强大的持久性保障。在这个领域,Kafka足以媲美传统消息系统,如ActiveMR或RabbitMQ 站点的用户活动追踪: 为了更好地理解用户行为,改善用户体验,将用户查看了哪个页面、点击了哪些内容等信息发送到每个数据中心的Kafka集群上,并通过Hadoop进行分析、生成日常报告。 流处理:保存收集流数据,以提供之后对接的Storm或其他流式计算框架进行处理。很多用户会将那些从原始topic来的数据进行 阶段性处理,汇总,扩充或者以其他的方式转换到新的topic下再继续后面的处理。例如一个文章推荐的处理流程...阅读全文

博文 2023-01-10 13:46:09 掘金

最全的 DevOps 工具集合

Hadoop)。BOSH 特别适合大型分布式系统。 此外,BOSH 支持多个基础架构即服务(IaaS)提供商,例如 VMware vSphere、Google Cloud Platform、Amazon WebServices EC2、Microsoft Azure、OpenStack 和阿里云。它带有一个云提供商界面(CPI),使用户可以扩展 BOSH 以支持其他 IaaS 提供商,如 Apache CloudStack 和 VirtualBox 等。 Chef Chef 是一种配置管理工具,用来处理物理服务器、虚拟机和云中的机器设置。许多公司使用 Chef 软件来控制和管理自己的基础架构,他们包括 Facebook、Etsy、Cheezburger 和 Indiegogo 等。 Chef 是持续自...阅读全文

博文 2021-05-26 14:35:21 博客园

7大维度看国外企业为啥选择gRPC打造高性能微服务

动收集指标和跟踪信息可以快速回答常见问题,例如“我的服务对请求响应缓慢吗?”以及“请求失败的频率如何?”。 熔断 - 这种模式可以通过自动检测问题和快速失败来防止级联服务故障。也可以由长时间缓慢的请求来触发,以提供响应降级的服务而不是不断地超时。 缓存和批处理 - 通过使用缓存或批处理请求来加速请求。 大多数框架不会提供所有功能,但至少它们应该是可扩展的,以便在需要时添加。 什么是gRPC和协议缓冲区? 没有一个框架是万能的。我们探索的一些选项包括Facebook的Thrift,Apache Hadoop的Avro,Twitter的Finagle,甚至使用JSON模式。 我们的需求更接近于远程程序调用(RPC),给予所需要的细粒度控制。使用RPC的另一个吸引力是使用接口描述语言或IDL...阅读全文

博文 2018-03-19 17:51:32 debian.cn