InfraPub 为您找到相关结果 605

ChaosMesh 的基本功能有哪些

Chaos Mesh 的基本功能,包括注入、混沌实验场景、可视化操作、安全保注入​注入是混沌实验的核心。Chaos Mesh 充分考虑分布式系统可能出现的,提供全面、细粒度的类型,分为基础资源类型、平台类型和应用层三大类。基础资源类型:PodChaos:模拟 Pod ,例如 Pod 节重启、Pod 持续不可用,以及特定 Pod 中的某些容器。NetworkChaos:模拟网络,例如网络延迟、网络丢包、包乱序、各类网络分区。DNSChaos:模拟 DNS ,例如 DNS 域名解析失败、返回错误 IP 地址。HTTPChaos:模拟 HTTP 通信,例如 HTTP 通信延迟。StressChaos:模拟 CPU 抢占或内存抢占场景...阅读全文

17万块硬盘最新二季度故障报告出炉:仅三款幸免-机械硬盘 —快科技

云存储服务商Backblaze发布了二季度的硬盘率统计报告。 此次统计涵盖了BB旗下的177935块机械硬盘,总的年化率为1.01%。 硬盘出问题数量最多型号来自希捷4TB(ST4000DM000),但需要注意的是其通电服役时间同样比较长,整体年化率1.94%。 有三款硬盘在统计周期内没有发生,分别是希捷6TB(ST6000DX000)、HGST 12TB(HUH72122ALE600)和西数16TB(WUH72186ALE6L0)。 综合来看,在二季度,西数以及西数旗下的HGST硬盘,可靠性整体表现还是最为可圈可。 另外,BB还统计了从2013年至今的硬盘率表格,并得出东芝16TB、西数14TB和HGST的12TB/4TB是年化率最低的三块硬盘。 - THE...阅读全文

博文 2021-08-05 10:50:48 科技改变未来

Backblaze多年研究发现:SSD可靠性远超机械硬盘

可能遇到。考虑到 BackBlaze 的数据可以一直追溯到 2013 年,近日公布的这份硬盘可靠性报告,也让事情变得更加有趣。2021 年 1 季度,各个机械硬盘厂商的年化率表。从 2013 年 4 月 ~ 2021 年 4 月 1 日,BackBlaze 发现 SSD 的踪迹 AFR 仅为 0.65%、而 HDD 的 AFR 却高达 6.04% 。显然,SSD 的高寿命,得益于 SSD 内部没有频繁移动的机械部件,因而对电气的容忍度也更高。更别提在 2012 年发生了工厂水灾之后,机械硬盘制造商还普遍缩短了 HDD 产品的保修期限。访问:京东商城...阅读全文

分布式存储系统 Ceph 10.2.7 发布

Ceph v10.2.7 发布了。Ceph 是加州大学 Santa Cruz 分校的 Sage Weil(DreamHost 的联合创始人)专为博士论文设计的新一代自由软件分布式文件系统。自 2007 年毕业之后,Sage 开始全职投入到 Ceph 开 发之中,使其能适用于生产环境。Ceph 的主要目标是设计成基于 POSIX 的没有的分布式文件系统,使数据能容错和无缝的复制。 该版本更新日志尚未找到,了解更多请查看 提交记录 或关注 官方博客 。 下载地址 Source code (zip) Source code (tar.gz)...阅读全文

Golang 之禅: 如何写优质代码

在本月初的 GopherCon 上,知名 Go 语言贡献者与布道师 Dave Cheney 发表了名为《The Zen of Go》的演讲,之后他整理了演讲内容在博客中分享,由于内容过长,他又写了一个简洁版本: 完整版:https://dave.cheney.net/2020/02/23/the-zen-of-go简洁版:https://the-zen-of-go.netlify.com 这里简翻译一下简洁版本的内容:编写简、可读、可维护的 Go 代码的十个工程要。 每个包实现一目标 设计良好的 Go 软件包提供一个一的思路,以及一系列相关的行为。一个好的 Go 软件包首先需要选择一个好名字,使用电梯法则(30 秒内向客户讲清楚一个方案),仅用一个词来思考你的软件包要提供什么功能...阅读全文

博文 2020-02-25 20:48:33 debian.cn

GitHub 发布10月21日系统故障分析报告

Raft 共识机制之上达成共识。Orchestrator 可以实现应用程序无法支持的拓扑,因此必须注意将 Orchestrator 的配置与应用程序级别的期望保持一致。 然而 21 日,在上述网络分区中,Orchestrator 在主数据中心中一直保持活跃,根据 Raft 的共识机制,它开始了一个取消领导选举的过程。美国西海岸数据中心和美国东海岸公有云 Orchestrator 节能够建立合规数量并开始对群集进行转移,以便将写入指向美国西海岸数据中心。Orchestrator 继续组织美国西海岸数据库集群拓扑,当连接恢复时,应用层立即开始将写入流量引导到西海岸站的新当选者。 美国东海岸数据中心的数据库服务器包含一段短暂的写入时间,但尚未复制到美国西海岸的设施。由于两个数据中心中的数据库集群...阅读全文

Stackstorm 入门介绍

一句话概况:stackstorm是一个事件驱动的自动化引擎。StackStorm 是一坨功能强大的开源自动化平台,可将通过使用插件封装API的方式,将所有应用程序,服务和工作流程连接起来。这里的所有包括了目前我们常用Gitlab、Zabbix、ELK、AWS 等服务。 Stackstorm 具有很好的可扩展性,灵活性,完美支持 ChatOps 和全操作的API实现。通过Stackstorm 可以将您现有的基础架构和应用程序环境联系在一起,以便您可以更轻松地自动化操作该环境。它特别专注于针对事件采取行动。 便利的排除 - 触发由Nagios,Sensu,New Relic和其他监控系统捕获的系统,在物理节、OpenStack或Amazon实例和应用程序组件上运行一系列诊断检查,并将...阅读全文

GitLab 11.10 正式发布,进一步简化协作功能

GitLab 11.10 已正式发布 ,更新亮包括将管道功能(pipeline)集成到操作面板、将管道用于合并结果以及针对多行合并请求的建议。 轻松查看跨项目的管道健康状况 此版本通过强大的功能增强了 Operations Dashboard,该功能让用户能直接查看管道状态。 即使在查看个项目的管道状态时,这也很方便,不过在使用 多项目管道 时尤其有用 —— 当拥有微服务架构并且需要运行管道来测试和部署位于多个不同项目仓库中的代码时,这种情况很常见。现在,我们可以方便看到操作面板上所有管道的运行状况 。 针对合并结果运行管道 现在可以在合并之前 针对合并结果运行管道 。这样可以快速捕获只有经常重新定位时才会出现的错误,从而更快地解决管道并更有效地使用 GitLab Runner...阅读全文

总结系统设计中的33个黄金法则

关。 18. 针对——实施冗余。 19. 为了容错性和持久性——实施数据复制。 20. 对于用户到用户的快速通信 — 使用 Websockets。 21. 分布式系统中的检测——实现心跳。 22. 数据完整性——使用校验和算法。 23. 高效的服务器扩展——一致性哈希。 24. 去中心化数据传输——考虑 Gossip 协议。 25. 基于位置的功能 — 使用四叉树、Geohash 等。 26. 避免特定的技术名称 — 使用通用术语。 27. 高可用性和一致性的权衡——最终一致性。 28. 对于IP解析和域名查询——DNS。 29. 处理网络请求中的大数据——实施分页。 30. 缓存删除策略 — 首选...阅读全文

MX Linux 17 Beta 1 发布,基于 Debian 的发行版

-defaultlook,并为简的合成器(Xfce 或 Compton),面板和其他“调整”类型更改提供了一站式服务; mx-conky 提供了一种简编辑 conky 文件(颜色变化等)的方法; mx-network-assistant 将 mx-broadcom-manager 替换为通用网络排除工具; mx-tools 现在有一个更大的接口; 更新管理器(apt-notifier),包括首选项中提供的新主题; misc 更改为大多数其他 MX 应用程序 更多内容请查看 发布主页 。 下载地址:https://sourceforge.net/projects/mx-linux/files/Testing/MX17/beta1/...阅读全文

博文 2017-11-07 10:19:49 debian.cn

如何在敲代码时快速冷静 海豹突击队呼吸法

美国海豹突击队有一套 “让自己快速平静下来” 的技术,名曰:作战呼吸法(Combat Tactical Breathing)。这个中文名是我比比的,这三个词我都认识,放一起这么翻译没错吧。 下次你遇到测试不通过啊,莫名其妙的 Bug,PM 找你改需求,在线系统的莫名其妙啊,你感到沮丧或者焦虑的时候,试试这个方法。我保证,效果比你用头撞墙好。 操作步骤(跟着以上 GIF 呼吸): 吸气 4 秒(蓝色圆圈扩大)保持你的肺部充满空气 4 秒(当蓝色圆圈最大并静止)呼气 4 秒(蓝色圆圈收缩)保持你的肺部空 4 秒(圆收缩并静止) 多次重复以上步骤,直到你恢复了平(lǐ)静(zhì)。然后,回去继续敲代码吧。...阅读全文

博文 2019-03-04 13:24:50 debian.cn

RabbitMQ 高可用实现镜像队列

如果 RabbitMQ 集群只有一个 broker 节,那么该节的失效将导致整个服务临时性的不可用,并且可能会导致 message 的丢失(尤其是在非持久化 message 存储于非持久化 queue 中的时候)。可以将所有 message 都设置为持久化,并且使用持久化的 queue,但是这样仍然无法避免由于缓存导致的问题:因为 message 在发送之后和被写入磁盘并执行 fsync 之间存在一个虽然短暂但是会产生问题的时间窗。通过 publisher 的 confirm 机制能够确保客户端知道哪些 message 已经存入磁盘,尽管如此,一般不希望遇到因导致服务不可用。 如果 RabbitMQ 集群是由多个 broker 节构成的,那么从服务的整体可用性上来讲,该集群对...阅读全文

博文 2018-12-30 19:21:59 debian.cn

Spinnaker 介绍 – Netflix 的持续交付平台

Spinnaker 是 Netflix 在2015年开源的一款持续交付平台,它继承了 Netflix 上一代集群和部署管理工具 Asgard:Web-based Cloud Management and Deployment的优,同时根据公司业务以及技术的的发展抛弃了一些过时的设计:提高了持续交付系统的可复用性,提供了稳定可靠的API,提供了对基础设施和程序全局性的视图,配置、管理、运维都更简,而且还完全兼容 Asgard,总之对于 Netflix 来说 Spinnaker 是更牛逼的持续交付平台。 在深入了解 Spinnaker 之前,先扯一扯 Netflix 的技术文化:这是一家全面拥抱云的公司,据报道数据中心完全部署在 AWS 上,是 AWS 的超级大客户。在上云后他们发现仍...阅读全文

博文 2018-12-21 19:30:47 debian.cn

Grafana v6.0.0 发布,数据展示与分析平台

query using _interval_ms variable throws error #14507 而 Grafana 在 6.0 版本的主要新特性有: Explore – 一个新的查询,专注于数据探索和排除的工作流程。Grafana Loki – 与 Grafana Labs 的新开源日志聚合系统集成。Gauge Panel – 一个新的独立仪表板。New Panel Editor UX 改进面板编辑,在不同可视化间的切换变得容易。Google Stackdriver Datasource 已经退出测试,并正式发布。Azure Monitor 插件从外部插件移植到核心数据源。React Plugin 支持(React Plugin support)为构建插件提供了更简的方式...阅读全文

博文 2019-02-26 12:52:16 debian.cn

Consul 1.6 GA 发布

Consul 1.6.0 已于近日 发布 GA 版本 ,Consul 是 HashiCorp 公司推出的开源工具,也是主流的用于实现分布式系统服务发现与配置的方案。HashiCorp 对 Consul 的介绍是一个多云服务网络平台,用于在跨任何运行时平台和公共云或私有云的场景连接和保护服务。 本次更新主要集中在 Consul Connect(为其增加了一些主要新特性)和 Consul 的服务网格解决方案方面,此外还有一些改进和错误修复。 Consul 1.6 新特性 支持对 L7 层的流量管理 。1.6 使用了新的配置条目类型,可为服务到服务(service-to-service)的请求启用高级流量管理模式。其他配置条目类型如服务解析器、服务隔离器以及服务路由器通过高级服务转移和部署模...阅读全文

分布式任务调度平台 XXL

期性自动注册任务, 调度中心将会自动发现注册的任务并触发执行。同时,也支持手动录入执行器地址; 6、弹性扩容缩容:一旦有新执行器机器上线或者下线,下次调度时将会重新分配任务; 7、路由策略:执行器集群部署时提供丰富的路由策略,包括:第一个、最后一个、轮询、随机、一致性 HASH、最不经常使用、最近最久未使用、转移、忙碌转移等; 8、转移:任务路由策略选择” 转移” 情况下,如果执行器集群中某一台机器,将会自动 Failover 切换到一台正常的执行器发送调度请求。 9、阻塞处理策略:调度过于密集执行器来不及处理时的处理策略,策略包括:机串行(默认)、丢弃后续调度、覆盖之前调度; 10、任务超时控制:支持自定义任务超时时间,任务运行超时将会主动中断任务; 11、任务失败重试...阅读全文

博文 2018-11-05 21:47:15 JOB 2.0.0 发布

2017 热门开源自动化测试框架优缺点对比

是最好的选择。 但是,对于功能测试或非 Java 应用,应考虑其他解决方案。 3. Spock Spock 是用于 Java 和 Groovy 应用的测试和规范框架,基于 JUnit 。 优: 测试可读性强,支持简的英文句子,便于阅读。 提供周边上下文,从而能轻松了解如何解决。 内置 mocking 和 stubbing 功能。 支持数据驱动测试(DDT)。 缺: 需要具备基本的 Groovy 语言知识。 如果你的应用是基于 JVM 的,并且目标是使用 DSL 进行 BDD 自动化测试,则此框架正适合! 4. NUnit NUnit 是支持所有 .Net 语言的元测试框架。最初也是基于 Junit 的启发,完全采用 C# 编写,目前已被完全重新设计以使用更多 .NET 语言功能...阅读全文

博文 2017-11-15 08:52:47 debian.cn

美国东海岸大范围断网 谷歌、亚马逊等公司服务受影响 - 通信运营商

威瑞森是美国主要的宽带服务提供商。该公司之前曾提醒用户,布鲁克林的一条光纤被切断。发言人里奇·扬(Rich Young)说,公司“意识到了影响整个东北走廊宽带服务质量的问题”。他补充说,威瑞森“已经看到服务水平开始恢复”。与此同时,美国联邦通信委员会(FCC)正在审查有关网络中断的报告。联邦通信委员会代理主席杰西卡·罗森沃塞尔(Jessica Rosenworcel)在Twitter上表示,该监管机构下属的公共安全和国土安全局“正在努力弄清到底发生了什么”。监测网站Downdetector.com也显示,康卡斯特公司(Comcast Corp)、Roblox Corp和Slack Technologies Inc.也出现了。亚马逊公司的云计算部门在其网站上表示,与其服务相关的连接问...阅读全文

Kubernetes 1.18 发布

,而我们也开始考虑利用基于kubectl exec构建的工具为开发人员提供支持。此次新增的kubectl debug命令(目前为alpha版)允许开发人员在集群当中轻松调试自己的Pod,进而获得巨大的便利性增益。这项命令将创建一个即席容器,容器运行在待检查Pod旁边,同时附带有控制台以执行交互式排查。 SIG-CLI 调试程序的能力变得越来越必要,基于 kubectl exec,增加了 kubectl alpha debug 命令(目前为 alpha 阶段),使开发人员可以轻松地在集群中调试其 Pod。此命令允许创建一个临时容器,该容器在要检查的 Pod 旁边运行,并且还附加到控制台以进行交互式排除。 Windows CSI 支持 带来了用于 Windows 的 CSI 代理,目前处于...阅读全文

博文 2020-03-27 18:28:34 debian.cn

基于thanos搭建分布式prometheus

prometheus存在问题,具体痛可以这么描述: prometheus机存储和抓取能力都有上限,容易。 虽然有一种方式是通过部署N个prometheus分别抓取不同的target来分摊压力的,但是grafana就要为不同的图表配置不同的prometheus地址,复杂程度比较棘手。 thanos+prometheus可以解决这个问题,它提供了一个核心能力: 1,thanos querier组件可以反向代理到N个prometheus,然后grafana直接指向thanos querier即可,thanos querier会从N个prometheus同时查询数据,返回满足Promql的数据结果; 2,如果N个prometheus抓取的数据存在重复的,那么thanos...阅读全文

博文 2021-03-01 13:02:46 鱼儿的博客

ServiceMesh 透明代理Linkerd

Linkerd 是一个提供弹性云端原生应用服务网格(service mesh)的开源项目,也是面向微服务的开源 RPC 代理。Linkerd(发音 "linker-DEE")是一个透明的服务网格,旨在通过透明地将服务发现、负载均衡、处理,插桩(instrumentation)和路由添加到所有的服务间通信中,使现代应用程序安全可靠,而无需侵入应用内部本身的实现。 linkerd 作为一个透明的 HTTP/gRPC/thrift/ 等代理,通常可以以最少的配置被加入到现有的应用程序中,不管这些应用程序采用什么语言编写。linkerd 能与许多通用协议和服务发现后端运行,包括 Mesos 和 Kubernetes 等预定好的环境。 Linkerd 基于 Netty 和...阅读全文

Ceph 12.2.0 正式版本发布, 代号 Luminous

。 ceph-mgr还包括一个Prometheus插件。 ceph-mgr现在有一个Zabbix插件。使用zabbix_sender,它可以将集群事件发送到Zabbix Server主机。 这样可以方便地监视Ceph群集的状态,并在发生时发送通知。 集群的总体可扩展性有所提高。我们已经成功测试了多达10,000个OSD的集群。 目前,每个OSD都具有与其相关联的设备类(例如,hdd或ssd),允许CRUSH规则将数据简地映射到系统中的设备的子集。 通常不需要手动编写CRUSH规则或手动编辑CRUSH。可以优化CRUSH权重,以保持OSD之间数据的近乎完美的分布。 还有一个新的upmap异常处理机制,允许个PG移动以实现完美的分发(这需要客户端)。 每个OSD目前可以根据后端设备是HDD还是...阅读全文

博文 2017-08-31 13:36:49 debian.cn

MongoDB 4.2 正式发布 引入分布式事务

findAndModify 命令可以引用现有字段,并加入聚合管道,以获得更强的表现力可还原读写,降低了编写处理临时集群的代码的复杂性 客户端字段级加密 (FLE,Client-side Field Level Encryption) 现已是 MongoDB 4.2 的一部分,可以在 beta 版中使用。使用 FLE,可以选择性地保护文档中的敏感字段,每个字段都使用自己的密钥加密,并在客户端上无缝解密。 MongoDB 是现代应用程序的通用数据库,它汇集了文档模型、智能分布式系统以及在任何地方运行它的能力,从笔记本电脑到大型机,在公共和私有云中运行。如果以 MongoDB 4.2 为例,最快和最简的方法是在 MongoDB Atlas 上启动一个集群,在 AWS、Azure 和 GCP 上的 60 多个区域都可...阅读全文

博文 2019-08-16 07:54:08 debian.cn

百度运维工程师挖矿实录:四个月用155台服务器挖矿赚10万判3年

起运维人员挖矿导致百度损失 2.7 万的事件,同样是运维人员在“涉险”,为什么是运维人员呢? “运维”人员在企业的价值,他们自己的调侃是:当企业没有发生技术的时候,大家感觉不到运维人员的存在。当企业发生的时候,大家感觉到运维人员确实没有存在的必要。 但调侃归调侃,这反映了技术运维人员在企业中面临的尴尬处境,但实际上,运维人员对于一家企业运营维护的保,确实是很重要的。他们的职责包括服务器的部署、配置、维护;互联网平台的部署、升级、迁移、数据备份恢复;监控服务器,平台的运行,系统优化等,可以说,他们掌握了企业的后门,一旦运维部门发生危险,公司有可能陷入瘫痪状态,因此,一直以来,运维人员也拥有很多访问权限,而这却变成了运维人员不惜“涉险”的一个原因之一。 于是,如何对运维人员进行权限管理...阅读全文

博文 2020-03-17 20:42:41 debian.cn

LFS 8.0 正式发布:从零开始编译自己的 Linux 发行版

LFS的方法生成可以自行启动并安装了足够软件的CD,可以用来在空机器上安装LFS,或者直接在其上运行应用。 Patches 由于软件之间的依赖关系,在升级软件包之后可能会导致LFS的过程出现。Patch项目致力于研究最新版本的软件之间的互动,并提供一些补丁修复这些。 这次发布的 LFS 和 BLFS 总共有29个包得到了更新,包括启动脚本和安装指南。而 BLFS 则跟上一个旧版本相比,有大概800个包得到了更新,主要更新包括: * glibc-2.24 * binutils-2.27 * gcc-6.2.0 * /lib 移到了 /lib64 * 移除/usr/lib64 目录 * 增加 /usr/bin/ld.gold 可用 LFS 手册: http...阅读全文

博文 2021-01-28 17:50:23 debian.cn

Proxmox VE 6.1 正式版发布

双重身份验证有所改进。 高可用的方案也已得到了改进,并新增了"迁移"关闭策略,可以在关闭时将正在运行的服务迁移到另一个节,类似于 AWS 的宿主机迁移方式。 存储上,版本 6.1 已支持 Ceph 和 KRBD 在较新内核上支持的所有功能。 我们有一些值得注意的错误修复,其中之一是 QEMU 监视器超时问题或 corosync 的稳定性改进。发行说明中列出了无数其他错误修复和较小的改进。详情请参考发行说明。 常见问题: 问题1:我可以用 apt dist-upgrade 把 VE 6.0 升级为 6.1 吗?回答:可以放心使用。可以通过GUI界面,或者命令行把 VE 6.0 升级为最新的 VE 6.1,一般执行以下命令即可 apt update && apt dist-upgrade...阅读全文

博文 2019-12-05 10:16:44 debian.cn

得物云原生全链路追踪Trace2.0-采集篇 - OSCHINA

地化工作也是做得非常到位,而凭借着架构简,开箱即用的特,CAT 也是我们得物使用的第一个应用监控系统。 二、 0x01 第一阶段 从0~1基于CAT的实时应用监控 在得物五彩石项目交付之前,系统仅有基础设施层面的监控,CAT 的引入,很好地弥补了应用监控盲区。它支持提供各个维度的性能监控报表,健康状况检测,异常统计,对问题排查起到了积极推动的作用,同时也提供简的实时告警的能力。 CAT 拥有指标分钟级别的聚合统计的能力,从 UI 上不难看出,它拥有丰富的报表统计能力和问题排能力。 但随着公司业务规模逐步扩大,微服务粒度也不可避免地变小,我们发现,CAT 已经逐步无法满足我们的使用场景了: 无法直观呈现全链路视图: 问题排与日常性能分析的场景也越来越复杂,对于一个核心场景,其内部...阅读全文

博文 2022-12-10 06:50:41 中文开源技术交流社区

聊聊很重要的内核技术eBPF

Viljoen在其中介绍了Netronome SmartNIC上每个FPC每秒达到300万个数据包,每个SmartNIC有72到120个FPC,可能最大支持eBPF吞吐量4.3 Tbps!(理论上) eBPF 触发了新一代网络、安全性、应用程序配置/跟踪和性能排除等领域的工具开发,这些工具不再依赖现有的内核功能,而是在不影响执行效率或安全性的情况下主动重新编程运行时行为。 那我们看看有哪些基于 eBPF 的工程,这些工程或许你已经知道,或是已经经常使用。 基于eBPF的项目 1:bcc BCC是用于创建基于eBPF的高效内核跟踪和操作程序的工具包,其中包括一些有用的命令行工具和示例。 BCC简化了用C进行内核检测的eBPF程序的编写,包括LLVM的包装器以及Python和Lua的前端。它还提供了用于...阅读全文

博文 2020-08-16 11:08:44 debian.cn

DevOps 越来越流行,2019 年这八大趋势值得关注

从我们认为 DevOps 只是一个流行语开始,它已经发展了很长的一段时间。现在,DevOps 已经成为了一个主要焦,并在过去几年一直在塑造着软件世界。专家表示,DevOps 将成为主流,它的流行程度将在 2019 年达到顶峰。 根据 2018 年《DevOps 现状报告》,DevOps 精英级执行团队代码部署频率和发布速度更高,变更率更少,事恢复时间更短,同时高效能团队的比例逐年增长,采用 DevOps 的团队越来越多。 而 Stack Overflow2018 年的薪资计算器报告显示,全球 DevOps 专家的收入最高,美国 DevOps 专家的年薪中位数接近 10 万美元。 以下是“DevOps”一词的 Google Trends 以及 2019 年的预计增长假设。 从统计数据...阅读全文

博文 2018-12-10 22:49:57 debian.cn

最全的 DevOps 工具集合

用 Marathon 的 Apache Mesos 架构,©AdrianMouat 如图所见,集群中有四个元素。ZooKeeper 帮助 Marathon 查找 Mesos master 的地址,可以使用多个实例来处理。 Marathon 负责启动、监视并扩展容器。Mesos master 将分配给节的任务发送给 Marathon,并在节具有一些可用的 CPU/RAM 时向 Marathon 提出要约。Mesos slaves 负责运行容器并提交自身可用资源的列表。 Kubernetes Kubernetes 是用于 Docker 容器的编排系统,使用标签和 pods 的概念将容器分为许多逻辑元。Pod 是 Kubernetes 与其他两种解决方案之间的主要区别所在——它们是位于同...阅读全文

博文 2021-05-26 14:35:21 博客园

历数2017年五大Linux痛点

Linux操作系统为许许多多用户安装和使用,难免会遇到一些问题。正如2016年我们总结过5大Linux排除技巧一样,在即将过去的2017年里,我们依然搜集了用户在使用Linux系统时发现的问题,在此总结综述为"2017年五大Linux痛",直指用户使用的关键,希望能对您有所帮助。 1.文档 文档的问题是你今年最大的痛吗?开源的方式产生了大量优秀的代码,文档的质量也因此上升了一个台阶。随着越来越多的非技术用户采用Linux和开源软件,文件的质量和数量将变得至关重要。如果您想为开源项目做贡献,但又不觉得自己有足够的技术来提供代码,那么改进文档是一个很好的参与方式。许多项目甚至将文档保存在它们的存储库中。因此你可以通过自己的贡献去改进工作的效率。 2.软件/版本不兼容 软件版本不兼容的...阅读全文

博文 2017-11-25 12:27:56 debian.cn

Kafka 3.3 使用 KRaft 共识协议替代 ZooKeeper

控制器转移接近瞬时。Kafka 社区计划在下一个版本(3.4)中弃用 ZooKeeper,然后在 4.0 版本中完全删除它。此外,Kafka 3.3 还提供了其他一些新特性,比如添加了与元数据日志处理错误相关的指标,允许用户为其他用户创建委托令牌,以及严格统一的粘性分区器,以缩短分区时间。对于 Kafka Streams,这个版本增加了源/接收器指标,如消费/生产吞吐量、暂停/恢复拓扑,并集成了 KStream transform()和 process()方法。Kafka Connect 增加了对源连接器的精确一次语义支持。原文链接: https://www.infoq.com/news/2022/10/apache-kafka-kraft/...阅读全文

Cortex: 高可用和水平扩展Prometheus监控系统

服务。如果cortex有许多的查询,则可以扩展Querier或Query Frontend微服务。高可用性– Cortex可以在实例之间复制数据replicate data。这样可以防止数据丢失,并避免度量标准数据出现间断,即使发生机器and/orpod被驱逐。多租户–多个不受信任的parties可以共享同一群集。Cortex在从ingester到querying的整个生命周期中提供数据隔离。这对于为多个元或应用程序存储数据的大型组织或运行SaaS服务的人员非常有用。长期存储– Cortex将数据分块存储并为其生成索引。可以将Cortex配置为将其存储在自托管或云提供商支持的数据库或对象存储中。Cortex的需求Prometheus高可用性和数据去重Prometheus默认情况下不具有...阅读全文

博文 2021-10-09 17:00:22 知乎

个人信息保护新规将出台 消费者被短信轰炸将成为历史

,App开发运营者加强前端和后端安全防护、访问控制、技术加密、安全审计等工作,主动监测发现个人信息泄露等违规行为,及时响应处置要求。App开发运营者还要履行国家规定的其他个人信息保护义务。 尽管《规定》尚未正式发布实施,但是主流平台企业已经用实际行动认可了各自的信息保护义务。 7月6日,阿里巴巴开放平台发布《依法加强消费者订中敏感信息保护的公告》,称将启动订处理链路的消费者敏感信息保护方案,对涉及消费者个人敏感信息采取加密、去标识化等安全技术措施。 7月9日,京东发布《JD用户订隐私安全方案》,称为保京东用户和商家数据信息安全,京东商家开放平台将对订中手机号和座机号进行脱敏。 7月20日,抖音电商运营团队发布公告,为防止消费者隐私信息泄露,抖店将启动消费者隐私数据...阅读全文

Golang 操作 Kafka 样例

,以及更低的端到端延迟 持久性日志:Kafka可以为一种外部的持久性日志的分布式系统提供服务。这种日志可以在节间备份数据,并为数据回复提供一种重新同步的机制。Kafka中日志压缩功能为这种用法提供了条件。在这种用法中,Kafka类似于Apache BookKeeper项目。 1.1.4. Kafka中包含以下基础概念 1.Topic(话题):Kafka中用于区分不同类别信息的类别名称。由producer指定 2.Producer(生产者):将消息发布到Kafka特定的Topic的对象(过程) 3.Consumers(消费者):订阅并处理特定的Topic中的消息的对象(过程) 4.Broker(Kafka服务集群):已发布的消息保存在一组服务器中,称之为Kafka集群。集群中的每一个服...阅读全文

博文 2023-01-10 13:46:09 掘金

GlusterFS 和 Ceph 比比看

Ceph 中,默认情况下将数据复制到三个不同的节,这确保备份始终可用。 商品化硬件。GlusterFS 和 Ceph 是在 Linux 操作系统之上开发的。因此,对硬件唯一的要求是这些产品具有能够运行 Linux 的硬件。任何商品化硬件都可以运行 Linux 操作系统,结果是使用这些技术的公司可以大大减少在硬件上的投资——如果他们这样做的话。然而,实际上,许多公司正在投资专门用于运行 GlusterFS 或 Ceph 的硬件,因为更快的硬件可以更快地访问存储。 去中心化。在云环境中,永远不应该有中心。对于存储,这意味着不应该用一个中央位置存储元数据。GlusterFS 和 Ceph 实现了元数据访问去中心化的解决方案,从而降低了存储访问的可用性和冗余性。 现在来谈谈 GlusterFS 与...阅读全文

博文 2017-08-09 10:35:29 debian.cn

案例:Redis命令不当 引起数据库雪崩 造成数百万损失

最近的互联网线上事发生比较频繁,9月19日网上爆料出顺丰近期发生了一起线上删库事件,在这里就不介绍了。 这里分享一下最近发生在我公司的事,以及如何避免,并且如何处理优化。 该宕机的直接原因是使用 Redis 的 keys * 命令引起的,一共造成了某个服务化项目的两次宕机。 间接原因还有很多,技术跟不上业务的发展,由每日百万量到千万级是一个大的跨进,公司对于系统优化的处理优先级不高,技术开发人手的短缺。 第一次宕机 2018年9月13日的某个,公司某服务化项目的 RDS 数据库实例连接飙升,CPU 升到 100%,拒绝了其他应用的所有请求服务。 整个过程如下: 监控报警,显示RDS的CPU使用率达到80%以上,DBA介入,准备KILL慢SQL 1分钟内,没有发现明显阻塞的SQL...阅读全文

博文 2018-10-27 10:18:18 debian.cn

细数k8s支持的4种类型的container - 侃豺小哥

以进行排除的二进制文件和工具。这就决定了该容器有助于提供安全可靠的运行时环境,但也很难在问题发生时进行调试。 在这种情况下,临时容器发挥作用。它们实现了调试容器附加到主进程的功能,然后你可以用于调试任何类型的问题。调试容器可以基于任何镜像,因此可以根据您的需求进行定制。您可以构建自己的调试镜像,其中包含特殊的调试二进制文件或仅包含curl,OpenSSL和MongoDB客户端之类的工具。但是,您也可以选择Linux发行版(如Ubuntu)或仅运行Busybox镜像,这两个镜像都已经包含了许多有用的工具。 如何使用临时容器? 临时容器是alpha功能,因此默认情况下处于禁用状态。您将需要激活以下功能门才能使用它们: 临时容器 PodShareProcessNamespace(v1.16中的...阅读全文

博文 2021-08-20 11:45:32 博客园

Zoom 5.0是重大更新 增强加密功能提供更多安全选项

。 Zoom 升级到 AES 256 位 GCM 加密标准,为会议数据提供了更多的保护和防篡改功能。这为 Zoom 会议、Zoom 视频网络会议和 Zoom 电话数据的保密性和完整性提供了保。Zoom 5.0 将于本周内发布,支持 GCM 加密,一旦所有账户启用 GCM,该标准将生效。 现在通过击界面会议菜栏中的安全图标,就可以找到Zoom的安全功能。会议密码是现有的 Zoom 功能,Zoom 5.0 对大多数客户,包括所有基本版、授权专业版和 K-12 客户,都默认开启了会议密码。对于管理账户,账户管理员现在可以定义密码复杂度(如长度、字母数字和特殊字符要求)。此外,Zoom Phone 管理员现在可以调整访问语音信箱所需的密码长度。 另外,Zoom 5.0 将为大型企业提供新的数据结构,允...阅读全文

博文 2020-04-23 07:54:44 debian.cn

阿里巴巴版 JDK 首发 GA 版 生产环境可用

版本中,当 JFR 功能被打开,JVM 能以非常小的性能开销记录 Java 运行过程中产生的各种运行时数据。产生的 JFR 数据包含 JVM 运行时的各种微观细节,可以被 JMC(Java Mission Control) 进行分析。JMC 是一个桌面应用程序,通过解析 JFR 数据,JMC 能够高效快速定位线上产品环境的各种,分析内存分配热,方法调用热,方法调用超时分析,内存泄漏,IO 活动,线程活动等,帮助 Java 用户保证服务稳定。 据了解,阿里巴巴日常开发过程中遇到的很多问题都是通过 JFR 得到解决的,可以说是 Java 诊断利器。如上所言,JFR 功能在 OpenJDK 11 以及以上版本才有,但是在阿里巴巴的推动努力下,JFR 功能已经被 OpenJDK 8u 社...阅读全文

博文 2019-07-11 10:24:52 debian.cn

谷歌公开了内部管理Infra层的两个工具的Paper

序迁出,就很难总结出共同的部分。 工作流也很脆弱。原生工作流有很多关于生产状态的隐性假设,这会导致不可预期的。要避免错误,我们添加了前提条件:金丝雀集群是否服务于真实流量?底层有没有运行中断?但是因为我们需要扩展到数十个基础架构提供者和上百个服务,这些Web的前提条件变得非常tricky。每个工作流都需要知道其他工作流的状态。 交互变成了N²问题,这里N是组成服务基础架构的asset数量。当你更新个asset时,需要考虑它可能带给别的asset或者工作流的影响。比如,现在是否能够重启缓存,或者是否需要等待另一个缓存稳定了之后?如果需要手动变更某个在线的工作流,有没有哪些别的工作流也需要操作的? — 3 — 我们的方案:Prodspec和Annealing 手动设计每个工作流变得不太可能...阅读全文

博文 2023-01-08 11:23:20 CSDN博客

Kubernetes 1.7:安全加固、有状态应用更新等

智能仓库打造分布式数据中心。可以这里查看他们完整的实施方案。 是否 Kubernetes 也帮助了你们的团队?欢迎同社区分享你们的事。同时可以翻阅我们不断增加的用户场景分析,并从伟大的公司如 Box 学习如何在机构中采用 Kubernetes。 获取 Kubernetes 1.7 可以在 Github上下载。要开始上手Kubernetes,可以尝试使用互动式教程。 参与 欢迎参加本年12月6号至8号在Austin举办的CloudNativeCon 和 KubeCon,这将是有史以来最大的 Kubernetes 聚会。演讲提案直到8月21日前都是开放的,在10月6日前购票都有折扣。 参与最简的方式是加入符合你兴趣的特别兴趣小组。是否有想同 Kubernetes 社区说的话?快来参加每周一次...阅读全文

博文 2021-01-28 17:50:35 debian.cn

基于Inception & Yearning做SQL审核的实践

SQL审核是保证数据库 DDL 和 DML 安全使用、SQL变更可追溯、降低线上数据事概率的重要手段。去哪儿网开源的 Inception 工具有较大的使用基础,提供了相对完善的 API 接口,结合一些外层的操作界面,可以实现SQL审核、执行、备份和恢复功能,为DBA操作利器。本文详细介绍如何配置 Inception 和 Yearning 的整合。 Inception Inception是一个自动化运维工具,在Mysql前做一个审核和操作的屏。跟Inception的交互是程序级别的,即通过Python或其他程序编程实现对Inception的命令调用,并解析结果。 Inception的文档地址:http://mysql-inception.github.io/inception...阅读全文

博文 2018-08-13 17:39:45 debian.cn

Hadoop 核心 - HDFS 分布式文件系统详解

进程死亡或者网络造成datanode无法与namenode通信,namenode不会立即把该节判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为: timeout = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval。 而默认的dfs.namenode.heartbeat.recheck-interval 大小为5分钟,dfs.heartbeat.interval默认为3秒。 需要注意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的位为毫秒...阅读全文

Chrome 64发布:已打CPU补丁提升安全等级

今天,Google开始面向Windows、Mac和Linux平台推送Chrome 64稳定版更新,预计将会在未来几天/几周内完成。本次版本更新最值得关注的就是修复了Meltdown和Spectre两处CPU漏洞,阻止黑客利用这两个漏洞入侵用户设备。 Chrome 64改进了弹出阻止器,Google声称将阻止有恶意倾向的网站打开新的标签页或者窗口。如果你曾经被透明覆盖的网站、意让你击播放的按钮等方式所欺诈过,那么这项功能会让你感到满意。 正如此前所报道的,自Chrome 64开始自动视频播放默认情况下会处于关闭状态,不过自然也有一些例外的情况。例如已经静音或者没有声音的视频可以自动播放,或者用户表现出对这个视频内容的足够兴趣。 在安全方面,Google升级了Chrome的V8...阅读全文

博文 2018-01-25 13:30:24 debian.cn

GitHub 开发者呼吁 Adobe 将 Flash 开源

Linstedt进一步解释说,通过这样做,它将保持Flash项目的生存和安全。他已经开发出一套可视化方法,将SWF和FLA文件转换为HTML5,Canvas,WebGL或Webassembly。开发者的另一个建议是独立的浏览器,可以播放Flash内容。 此外,参与请愿的开发者认为,Adobe可能有一些许可的组件不能被公开使用。尽管如此,Linstedt仍然希望这不会是一个碍,他们呼吁Adobe请简地留下某些组件被删除的说明,开发者将绕过它们,或者用开源替代方法来替换它们。 目前,这份请愿书已经获得了近4677份签名,签名数量正在稳步上升。即使在Adobe宣布到2020年结束对Flash的支持之前,苹果,谷歌,Mozilla 和 微软等公司也默认在各自的浏览器中阻止了 Flash 内容...阅读全文

博文 2017-08-01 10:01:05 debian.cn

3300 万 Authy 用户手机号泄漏

站里每次讨论 2FA 的相关话题,总会有很多朋友说他自己在用 Authy 。它通过手机号注册,而且可以多终端同步。因为看到站里有多例微软验证器丢失验证信息的案例,我曾经也考虑使用 Authy 作为第二个篮子,但因为拖延症一直没有行动。没想到 Authy 出个这么个事。 原因是有一个没有鉴权的 API 接口,攻击者通过这个接口批量验证手机号是否用于注册 Authy 。攻击者最终收集了 33M 个注册了 Authy 的手机号。 ![3300 万 Authy 用户手机号泄漏](https://www.bleepstatic.com/images/news/security/attacks/a/authy/unsecured-api/shinyhunters-twilio.jpg...阅读全文

如何在 Debian 下配置邮件服务器

: .example.tst local: root@mail:/etc/postfix# postmap transport aliases 假设所有发送到userA的所有电子邮件可以由userB接收,别名文件需要按如下所述进行修改。 root@mail:/etc/postfix# vim aliases userA: userA, userB root@mail:/etc/postfix# postalias aliases 注:语法“userA:userB”指定的邮件应该只向userB转发。userA将不会收到此邮件的副本。 SMTP:启动服务 使用以下命令启动postfix root@mail:~# service postfix restart 出现时/var/log/mail.log日志文件可以提供有...阅读全文

博文 2021-01-28 17:50:22 debian.cn

译:Kubernetes 最佳实践

内存限制,则该进程将终止,因此在所有情况下都可能不适合设置此值。如果容器超过 CPU 限制,则进程会受到限制。使用 Deployment、DaemonSet、ReplicaSet 或者 StatefulSet 跨节部署 Pod永远不应该直接使用 Pod 运行。相反,为了提高容错性,Pod 应该始终作为 Deployment、DaemonSet、ReplicaSet 或 StatefulSet 的一部分。然后可以在部署中使用反亲和性规则跨节部署 pod,以避免所有 pod 调度到同一个节上运行,如果该节发生可能会导致服务停止。使用多节如果想提升容错性,在个节上运行 K8s 并不是一个好主意。集群中应该使用多个节,以便可以在它们之间分散工作负载。使用基于角色的访问控制...阅读全文

博文 2022-09-13 19:32:21 atbug.com

Golang 中的 channel 通道详解

channel的容量。对于内置的len函数,如果传入的是channel,那么将返回channel内部缓存队列中有效元素的个数。因为在并发程序中该信息会随着接收操作而失效,但是它对某些诊断和性能优化会有帮助。package main import "fmt" func main() { ch := make(chan int, 10) // 创建一个最大容量为10的channel ch <- 233 ch <- 2 ch <- 3 fmt.Println(cap(ch)) // 10 fmt.Println(len(ch)) // 3 fmt.Println(<-ch) // 233 fmt.Println(len(ch)) // 2 } 向缓存Channel的发送操作就是向内部缓存队列的尾部插入元素...阅读全文