InfraPub 为您找到相关结果 641

ChaosMesh 的基本功能有哪些

Chaos Mesh 的基本功能,包括、混沌实验场景、可视化操作、安全保是混沌实验的核心。Chaos Mesh 充分考虑分布式系统可能出现的,提供全面、细粒度的类型,分为基础资源类型、平台类型和应用层三大类。基础资源类型:PodChaos:模拟 Pod ,例如 Pod 节点重启、Pod 持续不可用,以及特定 Pod 中的某些容器。NetworkChaos:模拟网络,例如网络延迟、网络丢包、包乱序、各类网络分区。DNSChaos:模拟 DNS ,例如 DNS 域名解析失败、返回错误 IP 地址。HTTPChaos:模拟 HTTP 通信,例如 HTTP 通信延迟。StressChaos:模拟 CPU 抢占或内存抢占场景...阅读全文

17万块硬盘最新二季度故障报告出炉:仅三款幸免-机械硬盘 —快科技

云存储服务商Backblaze发布了二季度的硬盘率统计报告。 此次统计涵盖了BB旗下的177935块机械硬盘,总的年化率为1.01%。 硬盘出问题数量最多型号来自希捷4TB(ST4000DM000),但需要意的是其通电服役时间同样比较长,整体年化率1.94%。 有三款硬盘在统计周期内没有发生,分别是希捷6TB(ST6000DX000)、HGST 12TB(HUH72122ALE600)和西数16TB(WUH72186ALE6L0)。 综合来看,在二季度,西数以及西数旗下的HGST硬盘,可靠性整体表现还是最为可圈可点。 另外,BB还统计了从2013年至今的硬盘率表格,并得出东芝16TB、西数14TB和HGST的12TB/4TB是年化率最低的三块硬盘。 - THE...阅读全文

博文 2021-08-05 10:50:48 科技改变未来

GitHub 发布10月21日系统故障分析报告

Raft 共识机制之上达成共识。Orchestrator 可以实现应用程序无法支持的拓扑,因此必须意将 Orchestrator 的配置与应用程序级别的期望保持一致。 然而 21 日,在上述网络分区中,Orchestrator 在主数据中心中一直保持活跃,根据 Raft 的共识机制,它开始了一个取消领导选举的过程。美国西海岸数据中心和美国东海岸公有云 Orchestrator 节点能够建立合规数量并开始对群集进行转移,以便将写指向美国西海岸数据中心。Orchestrator 继续组织美国西海岸数据库集群拓扑,当连接恢复时,应用层立即开始将写流量引导到西海岸站点的新当选者。 美国东海岸数据中心的数据库服务器包含一段短暂的写时间,但尚未复制到美国西海岸的设施。由于两个数据中心中的数据库集群...阅读全文

Backblaze多年研究发现:SSD可靠性远超机械硬盘

2021 年 1 季度,HDD / SSD 年化率对比。在笔记本电脑市场,厂商也愈加倾向于将内置 SSD 作为其轻薄本产品线的唯一选项。此外 BackBlaze 祖辛发表的一项研究,更是揭示了一个有趣的事实 —— SSD 的可靠性,竟然是 HDD 的 21 倍!以定期发表企业存储可靠性报告而被大家所熟知的 BackBlaze,让我们直观地了解到了各款驱动器的平均或年化率(AFR)。HDD / SSD 终身年化率对比2021 年 1 季度期间,BackBlaze 发现,各品牌机械硬盘的 AFR 为 10.56%,而同期各品牌固态硬盘的 AFR 低至惊人的 0.58% 。换言之,大约每 10 块 HDD 中,就有 1 个发生了。而在大约每 200 块 SSD 中,也只有 1 个...阅读全文

分布式存储系统 Ceph 10.2.7 发布

Ceph v10.2.7 发布了。Ceph 是加州大学 Santa Cruz 分校的 Sage Weil(DreamHost 的联合创始人)专为博士论文设计的新一代自由软件分布式文件系统。自 2007 年毕业之后,Sage 开始全职投到 Ceph 开 发之中,使其能适用于生产环境。Ceph 的主要目标是设计成基于 POSIX 的没有单点的分布式文件系统,使数据能容错和无缝的复制。 该版本更新日志尚未找到,了解更多请查看 提交记录 或关 官方博客 。 下载地址 Source code (zip) Source code (tar.gz)...阅读全文

Stackstorm 入门介绍

一句话概况:stackstorm是一个事件驱动的自动化引擎。StackStorm 是一坨功能强大的开源自动化平台,可将通过使用插件封装API的方式,将所有应用程序,服务和工作流程连接起来。这里的所有包括了目前我们常用Gitlab、Zabbix、ELK、AWS 等服务。 Stackstorm 具有很好的可扩展性,灵活性,完美支持 ChatOps 和全操作的API实现。通过Stackstorm 可以将您现有的基础架构和应用程序环境联系在一起,以便您可以更轻松地自动化操作该环境。它特别专于针对事件采取行动。 便利的排除 - 触发由Nagios,Sensu,New Relic和其他监控系统捕获的系统,在物理节点、OpenStack或Amazon实例和应用程序组件上运行一系列诊断检查,并将...阅读全文

GitLab 11.10 正式发布,进一步简化协作功能

GitLab 11.10 已正式发布 ,更新亮点包括将管道功能(pipeline)集成到操作面板、将管道用于合并结果以及针对多行合并请求的建议。 轻松查看跨项目的管道健康状况 此版本通过强大的功能增强了 Operations Dashboard,该功能让用户能直接查看管道状态。 即使在查看单个项目的管道状态时,这也很方便,不过在使用 多项目管道 时尤其有用 —— 当拥有微服务架构并且需要运行管道来测试和部署位于多个不同项目仓库中的代码时,这种情况很常见。现在,我们可以方便看到操作面板上所有管道的运行状况 。 针对合并结果运行管道 现在可以在合并之前 针对合并结果运行管道 。这样可以快速捕获只有经常重新定位时才会出现的错误,从而更快地解决管道并更有效地使用 GitLab Runner...阅读全文

Kubernetes 1.18 发布

IngressClass 扩展 Ingress 并替换不推荐使用的解 此版本 Ingress 有两个重要的附加功能:一个新的 pathType 字段和一个新的 IngressClass 资源。pathType 字段允许指定如何匹配路径。除了默认的 ImplementationSpecific 类型,还有新的 Exact 和 Prefix 路径类型。 IngressClass 资源用于描述 Kubernetes 集群内的 Ingress 类型。此新资源和字段替换了不推荐使用的 kubernetes.io/ingress.class 解。 SIG-CLI 引 kubectl alpha debug 命令 SIG-CLI到底需不需要调试功能,一直是个颇具争议的问题。随着即席容器[1]的发展,这个问题变得愈发尖锐...阅读全文

博文 2020-03-27 18:28:34 debian.cn

Golang 之禅: 如何写优质代码

。 明确处理错误 健壮的程序其实是由处理案例的片段组成的,并且需要在出现之前处理好。冗余的if err != nil { return err }比出了再一个个去处理更有价值。panic 和 recover 也一样。 尽早 return,不要深陷 每次缩进时都会在程序员的堆栈中添加另一个先决条件,这会占用他们短期内存中的 7±2 个片段。避免需要深层缩进的控制流。与其深嵌套,不如使用守卫子句将成功路径保持在左侧。 并发权留给调用者 让调用者选择是否要异步运行你的库或函数,不要强制他们使用异步。 在启动 goroutine 之前,要知道它什么时候会停止 goroutines 拥有资源、锁、变量与内存等,释放这些资源的可靠方法是停止 goroutine。 避免包级别的状态 要完成明确和...阅读全文

博文 2020-02-25 20:48:33 debian.cn

ServiceMesh 透明代理Linkerd

Linkerd 是一个提供弹性云端原生应用服务网格(service mesh)的开源项目,也是面向微服务的开源 RPC 代理。Linkerd(发音 "linker-DEE")是一个透明的服务网格,旨在通过透明地将服务发现、负载均衡、处理,插桩(instrumentation)和路由添加到所有的服务间通信中,使现代应用程序安全可靠,而无需侵应用内部本身的实现。 linkerd 作为一个透明的 HTTP/gRPC/thrift/ 等代理,通常可以以最少的配置被加到现有的应用程序中,不管这些应用程序采用什么语言编写。linkerd 能与许多通用协议和服务发现后端运行,包括 Mesos 和 Kubernetes 等预定好的环境。 Linkerd 基于 Netty 和...阅读全文

分布式任务调度平台 XXL

期性自动册任务, 调度中心将会自动发现册的任务并触发执行。同时,也支持手动录执行器地址; 6、弹性扩容缩容:一旦有新执行器机器上线或者下线,下次调度时将会重新分配任务; 7、路由策略:执行器集群部署时提供丰富的路由策略,包括:第一个、最后一个、轮询、随机、一致性 HASH、最不经常使用、最近最久未使用、转移、忙碌转移等; 8、转移:任务路由策略选择” 转移” 情况下,如果执行器集群中某一台机器,将会自动 Failover 切换到一台正常的执行器发送调度请求。 9、阻塞处理策略:调度过于密集执行器来不及处理时的处理策略,策略包括:单机串行(默认)、丢弃后续调度、覆盖之前调度; 10、任务超时控制:支持自定义任务超时时间,任务运行超时将会主动中断任务; 11、任务失败重试...阅读全文

博文 2018-11-05 21:47:15 JOB 2.0.0 发布

美国东海岸大范围断网 谷歌、亚马逊等公司服务受影响 - 通信运营商

威瑞森是美国主要的宽带服务提供商。该公司之前曾提醒用户,布鲁克林的一条光纤被切断。发言人里奇·扬(Rich Young)说,公司“意识到了影响整个东北走廊宽带服务质量的问题”。他补充说,威瑞森“已经看到服务水平开始恢复”。与此同时,美国联邦通信委员会(FCC)正在审查有关网络中断的报告。联邦通信委员会代理主席杰西卡·罗森沃塞尔(Jessica Rosenworcel)在Twitter上表示,该监管机构下属的公共安全和国土安全局“正在努力弄清到底发生了什么”。监测网站Downdetector.com也显示,康卡斯特公司(Comcast Corp)、Roblox Corp和Slack Technologies Inc.也出现了。亚马逊公司的云计算部门在其网站上表示,与其服务相关的连接问...阅读全文

Grafana v6.0.0 发布,数据展示与分析平台

query using _interval_ms variable throws error #14507 而 Grafana 在 6.0 版本的主要新特性有: Explore – 一个新的查询,专于数据探索和排除的工作流程。Grafana Loki – 与 Grafana Labs 的新开源日志聚合系统集成。Gauge Panel – 一个新的独立仪表板。New Panel Editor UX 改进面板编辑,在不同可视化间的切换变得容易。Google Stackdriver Datasource 已经退出测试,并正式发布。Azure Monitor 插件从外部插件移植到核心数据源。React Plugin 支持(React Plugin support)为构建插件提供了更简单的方式...阅读全文

博文 2019-02-26 12:52:16 debian.cn

Consul 1.6 GA 发布

Consul 1.6.0 已于近日 发布 GA 版本 ,Consul 是 HashiCorp 公司推出的开源工具,也是主流的用于实现分布式系统服务发现与配置的方案。HashiCorp 对 Consul 的介绍是一个多云服务网络平台,用于在跨任何运行时平台和公共云或私有云的场景连接和保护服务。 本次更新主要集中在 Consul Connect(为其增加了一些主要新特性)和 Consul 的服务网格解决方案方面,此外还有一些改进和错误修复。 Consul 1.6 新特性 支持对 L7 层的流量管理 。1.6 使用了新的配置条目类型,可为服务到服务(service-to-service)的请求启用高级流量管理模式。其他配置条目类型如服务解析器、服务隔离器以及服务路由器通过高级服务转移和部署模...阅读全文

LFS 8.0 正式发布:从零开始编译自己的 Linux 发行版

LFS的方法生成可以自行启动并安装了足够软件的CD,可以用来在空机器上安装LFS,或者直接在其上运行应用。 Patches 由于软件之间的依赖关系,在升级软件包之后可能会导致LFS的过程出现。Patch项目致力于研究最新版本的软件之间的互动,并提供一些补丁修复这些。 这次发布的 LFS 和 BLFS 总共有29个包得到了更新,包括启动脚本和安装指南。而 BLFS 则跟上一个旧版本相比,有大概800个包得到了更新,主要更新包括: * glibc-2.24 * binutils-2.27 * gcc-6.2.0 * /lib 移到了 /lib64 * 移除/usr/lib64 目录 * 增加 /usr/bin/ld.gold 可用 LFS 手册: http...阅读全文

博文 2021-01-28 17:50:23 debian.cn

Spinnaker 介绍 – Netflix 的持续交付平台

Spinnaker 是 Netflix 在2015年开源的一款持续交付平台,它继承了 Netflix 上一代集群和部署管理工具 Asgard:Web-based Cloud Management and Deployment的优点,同时根据公司业务以及技术的的发展抛弃了一些过时的设计:提高了持续交付系统的可复用性,提供了稳定可靠的API,提供了对基础设施和程序全局性的视图,配置、管理、运维都更简单,而且还完全兼容 Asgard,总之对于 Netflix 来说 Spinnaker 是更牛逼的持续交付平台。 在深了解 Spinnaker 之前,先扯一扯 Netflix 的技术文化:这是一家全面拥抱云的公司,据报道数据中心完全部署在 AWS 上,是 AWS 的超级大客户。在上云后他们发现仍...阅读全文

博文 2018-12-21 19:30:47 debian.cn

基于Inception & Yearning做SQL审核的实践

SQL审核是保证数据库 DDL 和 DML 安全使用、SQL变更可追溯、降低线上数据事概率的重要手段。去哪儿网开源的 Inception 工具有较大的使用基础,提供了相对完善的 API 接口,结合一些外层的操作界面,可以实现SQL审核、执行、备份和恢复功能,为DBA操作利器。本文详细介绍如何配置 Inception 和 Yearning 的整合。 Inception Inception是一个自动化运维工具,在Mysql前做一个审核和操作的屏。跟Inception的交互是程序级别的,即通过Python或其他程序编程实现对Inception的命令调用,并解析结果。 Inception的文档地址:http://mysql-inception.github.io/inception...阅读全文

博文 2018-08-13 17:39:45 debian.cn

总结系统设计中的33个黄金法则

关。 18. 针对单点——实施冗余。 19. 为了容错性和持久性——实施数据复制。 20. 对于用户到用户的快速通信 — 使用 Websockets。 21. 分布式系统中的检测——实现心跳。 22. 数据完整性——使用校验和算法。 23. 高效的服务器扩展——一致性哈希。 24. 去中心化数据传输——考虑 Gossip 协议。 25. 基于位置的功能 — 使用四叉树、Geohash 等。 26. 避免特定的技术名称 — 使用通用术语。 27. 高可用性和一致性的权衡——最终一致性。 28. 对于IP解析和域名查询——DNS。 29. 处理网络请求中的大数据——实施分页。 30. 缓存删除策略 — 首选...阅读全文

如何在敲代码时快速冷静 海豹突击队呼吸法

美国海豹突击队有一套 “让自己快速平静下来” 的技术,名曰:作战呼吸法(Combat Tactical Breathing)。这个中文名是我比比的,这三个单词我都认识,放一起这么翻译没错吧。 下次你遇到测试不通过啊,莫名其妙的 Bug,PM 找你改需求,在线系统的莫名其妙啊,你感到沮丧或者焦虑的时候,试试这个方法。我保证,效果比你用头撞墙好。 操作步骤(跟着以上 GIF 呼吸): 吸气 4 秒(蓝色圆圈扩大)保持你的肺部充满空气 4 秒(当蓝色圆圈最大并静止)呼气 4 秒(蓝色圆圈收缩)保持你的肺部空 4 秒(圆收缩并静止) 多次重复以上步骤,直到你恢复了平(lǐ)静(zhì)。然后,回去继续敲代码吧。...阅读全文

博文 2019-03-04 13:24:50 debian.cn

Ceph 12.2.0 正式版本发布, 代号 Luminous

) FreeBSD的Ceph的第一个版本可用。通过常规FreeBSD端口和软件包发布系统,最新可用版本:net/ceph-devel。 在 Jewel(v10.2.z)版本上进行的重要修改 RADOS 现在默认为AsyncMessenger (ms type = async)的传统SimpleMessenger。最明显的区别是 我们现在使用固定大小的线程池进行网络连接(而不是使用SimpleMessenger,一个socket两个线程)。 优化OSD检测时间,而以前的心跳超时(默认为20秒)。 优化OSDMaps的代码量。 集群在进行重平衡/数据恢复时,OSD会停止Scrub。 RGW RGW现在支持S3多对象复制API。 现在可以离线重塑现有的分支。离线目前,桶重塑要求所有IO(特别是写)到特定的桶...阅读全文

博文 2017-08-31 13:36:49 debian.cn

RabbitMQ 高可用实现镜像队列

如果 RabbitMQ 集群只有一个 broker 节点,那么该节点的失效将导致整个服务临时性的不可用,并且可能会导致 message 的丢失(尤其是在非持久化 message 存储于非持久化 queue 中的时候)。可以将所有 message 都设置为持久化,并且使用持久化的 queue,但是这样仍然无法避免由于缓存导致的问题:因为 message 在发送之后和被写磁盘并执行 fsync 之间存在一个虽然短暂但是会产生问题的时间窗。通过 publisher 的 confirm 机制能够确保客户端知道哪些 message 已经存磁盘,尽管如此,一般不希望遇到因单点导致服务不可用。 如果 RabbitMQ 集群是由多个 broker 节点构成的,那么从服务的整体可用性上来讲,该集群对...阅读全文

博文 2018-12-30 19:21:59 debian.cn

MX Linux 17 Beta 1 发布,基于 Debian 的发行版

-defaultlook,并为简单的合成器(Xfce 或 Compton),面板和其他“调整”类型更改提供了一站式服务; mx-conky 提供了一种简单编辑 conky 文件(颜色变化等)的方法; mx-network-assistant 将 mx-broadcom-manager 替换为通用网络排除工具; mx-tools 现在有一个更大的接口; 更新管理器(apt-notifier),包括首选项中提供的新主题; misc 更改为大多数其他 MX 应用程序 更多内容请查看 发布主页 。 下载地址:https://sourceforge.net/projects/mx-linux/files/Testing/MX17/beta1/...阅读全文

博文 2017-11-07 10:19:49 debian.cn

Proxmox VE 6.1 正式版发布

双重身份验证有所改进。 高可用的方案也已得到了改进,并新增了"迁移"关闭策略,可以在关闭时将正在运行的服务迁移到另一个节点,类似于 AWS 的宿主机迁移方式。 存储上,版本 6.1 已支持 Ceph 和 KRBD 在较新内核上支持的所有功能。 我们有一些值得意的错误修复,其中之一是 QEMU 监视器超时问题或 corosync 的稳定性改进。发行说明中列出了无数其他错误修复和较小的改进。详情请参考发行说明。 常见问题: 问题1:我可以用 apt dist-upgrade 把 VE 6.0 升级为 6.1 吗?回答:可以放心使用。可以通过GUI界面,或者命令行把 VE 6.0 升级为最新的 VE 6.1,一般执行以下命令即可 apt update && apt dist-upgrade...阅读全文

博文 2019-12-05 10:16:44 debian.cn

百度运维工程师挖矿实录:四个月用155台服务器挖矿赚10万判3年

起运维人员挖矿导致百度损失 2.7 万的事件,同样是运维人员在“涉险”,为什么是运维人员呢? “运维”人员在企业的价值,他们自己的调侃是:当企业没有发生技术的时候,大家感觉不到运维人员的存在。当企业发生的时候,大家感觉到运维人员确实没有存在的必要。 但调侃归调侃,这反映了技术运维人员在企业中面临的尴尬处境,但实际上,运维人员对于一家企业运营维护的保,确实是很重要的。他们的职责包括服务器的部署、配置、维护;互联网平台的部署、升级、迁移、数据备份恢复;监控服务器,平台的运行,系统优化等,可以说,他们掌握了企业的后门,一旦运维部门发生危险,公司有可能陷瘫痪状态,因此,一直以来,运维人员也拥有很多访问权限,而这却变成了运维人员不惜“涉险”的一个原因之一。 于是,如何对运维人员进行权限管理...阅读全文

博文 2020-03-17 20:42:41 debian.cn

DevOps 越来越流行,2019 年这八大趋势值得关注

从我们认为 DevOps 只是一个流行语开始,它已经发展了很长的一段时间。现在,DevOps 已经成为了一个主要焦点,并在过去几年一直在塑造着软件世界。专家表示,DevOps 将成为主流,它的流行程度将在 2019 年达到顶峰。 根据 2018 年《DevOps 现状报告》,DevOps 精英级执行团队代码部署频率和发布速度更高,变更率更少,事恢复时间更短,同时高效能团队的比例逐年增长,采用 DevOps 的团队越来越多。 而 Stack Overflow2018 年的薪资计算器报告显示,全球 DevOps 专家的收最高,美国 DevOps 专家的年薪中位数接近 10 万美元。 以下是“DevOps”一词的 Google Trends 以及 2019 年的预计增长假设。 从统计数据...阅读全文

博文 2018-12-10 22:49:57 debian.cn

MongoDB 4.2 正式发布 引入分布式事务

findAndModify 命令可以引用现有字段,并加聚合管道,以获得更强的表现力可还原读写,降低了编写处理临时集群的代码的复杂性 客户端字段级加密 (FLE,Client-side Field Level Encryption) 现已是 MongoDB 4.2 的一部分,可以在 beta 版中使用。使用 FLE,可以选择性地保护文档中的敏感字段,每个字段都使用自己的密钥加密,并在客户端上无缝解密。 MongoDB 是现代应用程序的通用数据库,它汇集了文档模型、智能分布式系统以及在任何地方运行它的能力,从笔记本电脑到大型机,在公共和私有云中运行。如果以 MongoDB 4.2 为例,最快和最简单的方法是在 MongoDB Atlas 上启动一个集群,在 AWS、Azure 和 GCP 上的 60 多个区域都可...阅读全文

博文 2019-08-16 07:54:08 debian.cn

如何在 Linux 上安装 Intel 微代码固件

/OpenSUSE Linux 微码更新包 警告 :在某些情况下,微码更新可能会导致引导问题,比如,服务器在引导时被挂起或者自动重置。以下的步骤是在我的机器上运行过的,并且我是一个经验丰富的系统管理员。对于由此引发的任何硬件,我不承担任何责任。在做固件更新之前,请充分评估操作风险! 示例 在使用 Intel CPU 的 Debian/Ubuntu Linux 系统上,输如下的 apt 命令/apt-get 命令: sudo apt-get install intel-microcode 命令执行成功后,需要重启服务器,以激活微代码的更新。重启以后,我们再次执行 dmesg 命令,可以看到输出已经变为: [ 0.000000] microcode: microcode updated early to...阅读全文

博文 2018-03-07 19:37:47 debian.cn

3300 万 Authy 用户手机号泄漏

站里每次讨论 2FA 的相关话题,总会有很多朋友说他自己在用 Authy 。它通过手机号册,而且可以多终端同步。因为看到站里有多例微软验证器丢失验证信息的案例,我曾经也考虑使用 Authy 作为第二个篮子,但因为拖延症一直没有行动。没想到 Authy 出个这么个事。 原因是有一个没有鉴权的 API 接口,攻击者通过这个接口批量验证手机号是否用于册 Authy 。攻击者最终收集了 33M 个册了 Authy 的手机号。 ![3300 万 Authy 用户手机号泄漏](https://www.bleepstatic.com/images/news/security/attacks/a/authy/unsecured-api/shinyhunters-twilio.jpg...阅读全文

2017 热门开源自动化测试框架优缺点对比

是最好的选择。 但是,对于功能测试或非 Java 应用,应考虑其他解决方案。 3. Spock Spock 是用于 Java 和 Groovy 应用的测试和规范框架,基于 JUnit 。 优点: 测试可读性强,支持简单的英文句子,便于阅读。 提供周边上下文,从而能轻松了解如何解决。 内置 mocking 和 stubbing 功能。 支持数据驱动测试(DDT)。 缺点: 需要具备基本的 Groovy 语言知识。 如果你的应用是基于 JVM 的,并且目标是使用 DSL 进行 BDD 自动化测试,则此框架正适合! 4. NUnit NUnit 是支持所有 .Net 语言的单元测试框架。最初也是基于 Junit 的启发,完全采用 C# 编写,目前已被完全重新设计以使用更多 .NET 语言功能...阅读全文

博文 2017-11-15 08:52:47 debian.cn

基于thanos搭建分布式prometheus

prometheus存在单点问题,具体痛点可以这么描述: prometheus单机存储和抓取能力都有上限,容易单点。 虽然有一种方式是通过部署N个prometheus分别抓取不同的target来分摊压力的,但是grafana就要为不同的图表配置不同的prometheus地址,复杂程度比较棘手。 thanos+prometheus可以解决这个问题,它提供了一个核心能力: 1,thanos querier组件可以反向代理到N个prometheus,然后grafana直接指向thanos querier即可,thanos querier会从N个prometheus同时查询数据,返回满足Promql的数据结果; 2,如果N个prometheus抓取的数据存在重复的,那么thanos...阅读全文

博文 2021-03-01 13:02:46 鱼儿的博客

得物云原生全链路追踪Trace2.0-采集篇 - OSCHINA

一、0xcc开篇 2020年3月,得物技术团队在三个月的时间内完成了整个交易体系的重构,交付了五彩石项目,业务系统也进了微服务时代。系统服务拆分之后,虽然每个服务都会有不同的团队各司其职,但服务之间的依赖也变得复杂,对服务治理等相关的基础建设要求也更高。 对服务进行监控是服务治理、稳定性建设中的一个重要的环节,它能帮助提早发现问题,预估系统水位,以及对进行分析等等。从 2019 年末到现在,得物的应用服务监控系统经历了三大演进阶段,如今,整个得物的应用微服务监控体系已经全面融云原生可观测性技术 OpenTelemetry。 回顾过去十年间,应用服务监控行业的竞争也很激烈,相关产品如雨后春笋般涌现,如推特在 2012 年开源的 Zipkin,韩国最大的搜索引擎和门户网站 Naver...阅读全文

博文 2022-12-10 06:50:41 中文开源技术交流社区

Golang 操作 Kafka 样例

,以及更低的端到端延迟 持久性日志:Kafka可以为一种外部的持久性日志的分布式系统提供服务。这种日志可以在节点间备份数据,并为节点数据回复提供一种重新同步的机制。Kafka中日志压缩功能为这种用法提供了条件。在这种用法中,Kafka类似于Apache BookKeeper项目。 1.1.4. Kafka中包含以下基础概念 1.Topic(话题):Kafka中用于区分不同类别信息的类别名称。由producer指定 2.Producer(生产者):将消息发布到Kafka特定的Topic的对象(过程) 3.Consumers(消费者):订阅并处理特定的Topic中的消息的对象(过程) 4.Broker(Kafka服务集群):已发布的消息保存在一组服务器中,称之为Kafka集群。集群中的每一个服...阅读全文

博文 2023-01-10 13:46:09 掘金

Chrome 64发布:已打CPU补丁提升安全等级

今天,Google开始面向Windows、Mac和Linux平台推送Chrome 64稳定版更新,预计将会在未来几天/几周内完成。本次版本更新最值得关的就是修复了Meltdown和Spectre两处CPU漏洞,阻止黑客利用这两个漏洞侵用户设备。 Chrome 64改进了弹出阻止器,Google声称将阻止有恶意倾向的网站打开新的标签页或者窗口。如果你曾经被透明覆盖的网站、意让你点击播放的按钮等方式所欺诈过,那么这项功能会让你感到满意。 正如此前所报道的,自Chrome 64开始自动视频播放默认情况下会处于关闭状态,不过自然也有一些例外的情况。例如已经静音或者没有声音的视频可以自动播放,或者用户表现出对这个视频内容的足够兴趣。 在安全方面,Google升级了Chrome的V8...阅读全文

博文 2018-01-25 13:30:24 debian.cn

Cortex: 高可用和水平扩展Prometheus监控系统

服务。如果cortex有许多的查询,则可以扩展Querier或Query Frontend微服务。高可用性– Cortex可以在实例之间复制数据replicate data。这样可以防止数据丢失,并避免度量标准数据出现间断,即使发生机器and/orpod被驱逐。多租户–多个不受信任的parties可以共享同一群集。Cortex在从ingester到querying的整个生命周期中提供数据隔离。这对于为多个单元或应用程序存储数据的大型组织或运行SaaS服务的人员非常有用。长期存储– Cortex将数据分块存储并为其生成索引。可以将Cortex配置为将其存储在自托管或云提供商支持的数据库或对象存储中。Cortex的需求Prometheus高可用性和数据去重Prometheus默认情况下不具有...阅读全文

博文 2021-10-09 17:00:22 知乎

Kafka 3.3 使用 KRaft 共识协议替代 ZooKeeper

控制器转移接近瞬时。Kafka 社区计划在下一个版本(3.4)中弃用 ZooKeeper,然后在 4.0 版本中完全删除它。此外,Kafka 3.3 还提供了其他一些新特性,比如添加了与元数据日志处理错误相关的指标,允许用户为其他用户创建委托令牌,以及严格统一的粘性分区器,以缩短分区时间。对于 Kafka Streams,这个版本增加了源/接收器指标,如消费/生产吞吐量、暂停/恢复拓扑,并集成了 KStream transform()和 process()方法。Kafka Connect 增加了对源连接器的精确一次语义支持。原文链接: https://www.infoq.com/news/2022/10/apache-kafka-kraft/...阅读全文

如何在 Debian 下配置邮件服务器

: .example.tst local: root@mail:/etc/postfix# postmap transport aliases 假设所有发送到userA的所有电子邮件可以由userB接收,别名文件需要按如下所述进行修改。 root@mail:/etc/postfix# vim aliases userA: userA, userB root@mail:/etc/postfix# postalias aliases :语法“userA:userB”指定的邮件应该只向userB转发。userA将不会收到此邮件的副本。 SMTP:启动服务 使用以下命令启动postfix root@mail:~# service postfix restart 出现时/var/log/mail.log日志文件可以提供有...阅读全文

博文 2021-01-28 17:50:22 debian.cn

GlusterFS 和 Ceph 比比看

Ceph 中,默认情况下将数据复制到三个不同的节点,这确保备份始终可用。 商品化硬件。GlusterFS 和 Ceph 是在 Linux 操作系统之上开发的。因此,对硬件唯一的要求是这些产品具有能够运行 Linux 的硬件。任何商品化硬件都可以运行 Linux 操作系统,结果是使用这些技术的公司可以大大减少在硬件上的投资——如果他们这样做的话。然而,实际上,许多公司正在投资专门用于运行 GlusterFS 或 Ceph 的硬件,因为更快的硬件可以更快地访问存储。 去中心化。在云环境中,永远不应该有中心点。对于存储,这意味着不应该用一个中央位置存储元数据。GlusterFS 和 Ceph 实现了元数据访问去中心化的解决方案,从而降低了存储访问的可用性和冗余性。 现在来谈谈 GlusterFS 与...阅读全文

博文 2017-08-09 10:35:29 debian.cn

聊聊很重要的内核技术eBPF

Viljoen在其中介绍了Netronome SmartNIC上每个FPC每秒达到300万个数据包,每个SmartNIC有72到120个FPC,可能最大支持eBPF吞吐量4.3 Tbps!(理论上) eBPF 触发了新一代网络、安全性、应用程序配置/跟踪和性能排除等领域的工具开发,这些工具不再依赖现有的内核功能,而是在不影响执行效率或安全性的情况下主动重新编程运行时行为。 那我们看看有哪些基于 eBPF 的工程,这些工程或许你已经知道,或是已经经常使用。 基于eBPF的项目 1:bcc BCC是用于创建基于eBPF的高效内核跟踪和操作程序的工具包,其中包括一些有用的命令行工具和示例。 BCC简化了用C进行内核检测的eBPF程序的编写,包括LLVM的包装器以及Python和Lua的前端。它还提供了用于...阅读全文

博文 2020-08-16 11:08:44 debian.cn

阿里巴巴版 JDK 首发 GA 版 生产环境可用

,关 Dragonwell JDK 的开发者应该知道,Dragonwell 与 OpenJDK 上游相比提供了一些专有特性,比如 JFR,JwarmUp 等。作为全球最大的 Java 用户之一,阿里巴巴内部拥有数量非常庞大的 Java 开发人员和服务器,这也是其业务发展使然。上述新加的特性在阿里巴巴内部得到了广泛应用,为阿里巴巴 Java 业务的稳定运行立下了汗马功劳,也可以说是 Dragonwell JDK 的独门武器。在本次的 GA 版本中,阿里巴巴也针对 JFR 特性做了一些 BUG 修复和兼容性上的改进,具体详情可以访问 Github 上的Release Notes。 三大重要特性 Alibaba Dragonwell 是一款免费的 OpenJDK 发行版,其提供长期支持,包括性能...阅读全文

博文 2019-07-11 10:24:52 debian.cn

案例:Redis命令不当 引起数据库雪崩 造成数百万损失

最近的互联网线上事发生比较频繁,9月19日网上爆料出顺丰近期发生了一起线上删库事件,在这里就不介绍了。 这里分享一下最近发生在我公司的事,以及如何避免,并且如何处理优化。 该宕机的直接原因是使用 Redis 的 keys * 命令引起的,一共造成了某个服务化项目的两次宕机。 间接原因还有很多,技术跟不上业务的发展,由每日百万量到千万级是一个大的跨进,公司对于系统优化的处理优先级不高,技术开发人手的短缺。 第一次宕机 2018年9月13日的某个点,公司某服务化项目的 RDS 数据库实例连接飙升,CPU 升到 100%,拒绝了其他应用的所有请求服务。 整个过程如下: 监控报警,显示RDS的CPU使用率达到80%以上,DBA介,准备KILL慢SQL 1分钟内,没有发现明显阻塞的SQL...阅读全文

博文 2018-10-27 10:18:18 debian.cn

历数2017年五大Linux痛点

Linux操作系统为许许多多用户安装和使用,难免会遇到一些问题。正如2016年我们总结过5大Linux排除技巧一样,在即将过去的2017年里,我们依然搜集了用户在使用Linux系统时发现的问题,在此总结综述为"2017年五大Linux痛点",直指用户使用的关键点,希望能对您有所帮助。 1.文档 文档的问题是你今年最大的痛点吗?开源的方式产生了大量优秀的代码,文档的质量也因此上升了一个台阶。随着越来越多的非技术用户采用Linux和开源软件,文件的质量和数量将变得至关重要。如果您想为开源项目做贡献,但又不觉得自己有足够的技术来提供代码,那么改进文档是一个很好的参与方式。许多项目甚至将文档保存在它们的存储库中。因此你可以通过自己的贡献去改进工作的效率。 2.软件/版本不兼容 软件版本不兼容的...阅读全文

博文 2017-11-25 12:27:56 debian.cn

细数k8s支持的4种类型的container - 侃豺小哥

以进行排除的二进制文件和工具。这就决定了该容器有助于提供安全可靠的运行时环境,但也很难在问题发生时进行调试。 在这种情况下,临时容器发挥作用。它们实现了调试容器附加到主进程的功能,然后你可以用于调试任何类型的问题。调试容器可以基于任何镜像,因此可以根据您的需求进行定制。您可以构建自己的调试镜像,其中包含特殊的调试二进制文件或仅包含curl,OpenSSL和MongoDB客户端之类的工具。但是,您也可以选择Linux发行版(如Ubuntu)或仅运行Busybox镜像,这两个镜像都已经包含了许多有用的工具。 如何使用临时容器? 临时容器是alpha功能,因此默认情况下处于禁用状态。您将需要激活以下功能门才能使用它们: 临时容器 PodShareProcessNamespace(v1.16中的...阅读全文

博文 2021-08-20 11:45:32 博客园

Kubernetes 1.7:安全加固、有状态应用更新等

的社区聚会分享你的想法,或者使用以下渠道: 在 StackOverflow 上发表问题或者回答问题 在 K8sPort 上加社区门户网站得到支持 关我们的 Twitter 账号 ( @Kubernetesio)获取最新咨询 在 Slack 上和社区互动 分享你和 Kubernetes 的事 非常感谢社区广大的贡献者和支持者,感谢你们让这次和所有的发布成为可能。 原文链接:Kubernetes 1.7: Security Hardening, Stateful Application Updates and Extensibility(翻译:钟最龙)【中文转自DockOne.io】...阅读全文

博文 2021-01-28 17:50:35 debian.cn

最全的 DevOps 工具集合

。目前业内常用的配置管理工具包括 Terraform、BOSH、Chef、Ansible、Puppet、Google Cloud Deployment Manager。 Terraform Terraform 是由 HashiCorp 创建的开源基础架构即代码(IaC)软件工具。它让用户能够使用 Hashicorp 配置语言或 JSON(可选)这两种高级配置语言来定义和配置数据中心基础架构。 BOSH BOSH 是一个将小型和大规模云软件的发布工程、部署和生命周期管理统一在一起的项目。BOSH 可以在数百个 VM 上配置和部署软件。它还能以接近零的停机时间执行监视、恢复和软件更新任务。 虽然 BOSH 是为了部署 Cloud Foundry 而开发的,但它也可以用来部署几乎所有软件(例如...阅读全文

博文 2021-05-26 14:35:21 博客园

百度开源项目 ECharts 首进 Apache 孵化器

的定制能力。ECharts 底层依托了开源渲染引擎 ZRender ,支持 Canvas 和 SVG 等多种方式的渲染,支持 PC 、移动端、数据大屏、服务端渲染等多种设备场景。 目前,在 2018 年初发布的新版本 ECharts (4) 中,一些常用图表已支持最高达千万级的数据可视化,并且提供了小程序、无碍访问等支持。基于 WebGL 的 ECharts-GL 能支持各种 3D 图表渲染、以及海量数据的渲染加速。目前,各种基于 ECharts 的扩展库,以及相关的可视化服务系统已经形成了丰富的产品体系和活跃的社区环境。ECharts 目前在 GitHub 上拥有 25k+ 的关和 2k+ 的相关项目。大量的社区的反馈和贡献使 ECharts 不断地迭代进化。 业内人士认为,进...阅读全文

博文 2018-03-09 08:46:07 debian.cn

Kubernetes源码探疑:Pod IP泄露排查及解决方法

PodName,Sandbox容器ID,NameSpace,VPC IP等对应关联信息进行额外存储。这样当进DEL操作后,只需要通过kubelet传的PodName,Sandbox容器ID和NameSpace即可找到VPC IP,然后通过UCloud 公有云相关API删除之,无需依赖NETNS操作。 考虑到问题的根因是出现在kubelet源码中的SyncPod函数,UK8S团队也已修复kubelet相关源码并准备提交patch给Kubernetes社区。 写在最后 Kubernetes依然是一个高速迭代中的开源项目,生产环境中会不可用避免遇见一些异常现象。UK8S研发团队在学习理解Kubernetes各个组件运行原理的同时,积极根据现网异常现象深源码逐步探索出问题根因,进一步保UK8S服务的稳定...阅读全文

Istio 1.2.0发布 包含重大改进

Istio 1.2.0 已发布,距上一个重要版本 1.1 发布过去刚好三个月。更新的内容主要有以下这些。 General 添加了 traffic.sidecar.istio.io/includeInboundPorts 解以消除服务所有者在部署 yaml 文件中声明 containerPort 的需要。这将成为未来版本的默认设置。为 Kubernetes 集群添加了对 IPv6 的实验性支持 Traffic Management 在多集群环境中改进基于 基于位置的路由改进 ALLOW_ANY 模式 下的出站流量策略。现有端口上未知的 HTTP/HTTPS 主机流量将按 原样转发 。Envoy 访问日志将记录未知流量。添加了对上游服务设置 HTTP 空闲超时的支持改进了对 NONE 模式...阅读全文

博文 2019-06-24 10:13:28 debian.cn

Golang 中的 channel 通道详解

channel的容量。对于内置的len函数,如果传的是channel,那么将返回channel内部缓存队列中有效元素的个数。因为在并发程序中该信息会随着接收操作而失效,但是它对某些诊断和性能优化会有帮助。package main import "fmt" func main() { ch := make(chan int, 10) // 创建一个最大容量为10的channel ch <- 233 ch <- 2 ch <- 3 fmt.Println(cap(ch)) // 10 fmt.Println(len(ch)) // 3 fmt.Println(<-ch) // 233 fmt.Println(len(ch)) // 2 } 向缓存Channel的发送操作就是向内部缓存队列的尾部插元素...阅读全文

Hadoop 核心 - HDFS 分布式文件系统详解

进程死亡或者网络造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为: timeout = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval。 而默认的dfs.namenode.heartbeat.recheck-interval 大小为5分钟,dfs.heartbeat.interval默认为3秒。 需要意的是hdfs-site.xml 配置文件中的heartbeat.recheck.interval的单位为毫秒...阅读全文