InfraPub 为您找到相关结果 23

通过Prometheus查询K8S集群Pod 的CPU、内存、网络指标

="",pod_name=""} 0 Pod CPU使的计算 从man top手册中找到了CPU使的定义: 1. %CPU -- CPU Usage The task's share of the elapsed CPU time since the last screen update, expressed as a percentage of total CPU time. In a true SMP environment, if a process is multi-threaded and top is not operating in Threads mode, amounts greater than 100% may be reported. You toggle Threads mode...阅读全文

博文 2020-08-13 20:41:03 debian.cn

prometheus通过node_exporter抓取的数据准确计算磁盘使用率

公司使用的openstack的备份服务组件karbor,要查询所使用的备份nas磁盘使的需求,根据以前的查询语句,很快写出如下的prom sql 100-topk(1,node_filesystem_free{device=~":/.*"}*100/node_filesystem_size{device=~":/.*"}) 不久后,同事过来说给出的使不严谨,和在系统上通过df -h的命令不一样,分别是prom:10%,df结果是11%。嘴上说着差异不大不用管,身体却很实诚,马上去主机上通过df -h查看了使 :/var/lib/docker/nfs 147G 15G 125G 11% /var/lib/docker/volumes/volume-nfs/_data 通过prom...阅读全文

博文 2021-01-30 20:26:49 中文开源技术社区

系统分析工具 Sysdig 详解

:sysdig -p"%proc.name %fd.name" "evt.type=accept and proc.name!=httpd" 容器 查看机器上运行的容器列表及其资源使用情况:sudo csysdig -vcontainers查看容器上下文的进程列表:sudo csysdig -pc查看运行在debian.cn容器里CPU的使:sudo sysdig -pc -c topprocs_cpu container.name=debian.cn查看运行在 debian.cn 容器里网络带宽的使:sudo sysdig -pc -c topprocs_net container.name=debian.cn查看在 debian.cn 容器里使用网络带宽最多的进程:sudo sysdig...阅读全文

博文 2020-08-09 14:09:05 debian.cn

服务监控系统 Prometheus 2.0 发布

服务监控系统 Prometheus 2.0 已发布,Prometheus 是一个 Go 语言开发的开源的服务监控系统和时间序列数据库。 Prometheus 2.0 有一个简单而强大的运营模式。然而,基础设施领域也没有停滞不前,像 Kubernetes 和 Mesos 这样的项目正在迅速改变软件的部署和管理方式。受监控的环境变得越来越活跃。 存储 Prometheus 2.0 有性能显着提高,几乎在所有方面都有所改进。查询延迟更加一致,特别是在高系列流失的情况下,它的规模更大。在不同的现实世界生产情景下测量的资源消耗也显着下降: 与 Prometheus1.8 相比,CPU 使 降低了 20% – 40% 与普 Prometheus1.8 相比, 磁盘空间使 降低了 33...阅读全文

博文 2017-11-09 10:44:45 debian.cn

Nginx 1.15.6 和 1.14.1 发布,高性能 Web 服务器

Nginx 1.14.1 稳定版和 Nginx 1.15.6 主线版已发布,主要修复了 HTTP/2 (CVE-2018-16843,CVE-2018-16844)以及 MP4 模块(CVE-2018-16845)中的漏洞,具体如下: Nginx 1.14.1 Security: 在使用 HTTP/2 时可能导致客户端内存消耗过大 (CVE-2018-16843),CPU 使过高 (CVE-2018-16844); Security: 使用 ngx_http_mp4_module 处理特制的 mp4 文件可能导致工作进程内存泄露(CVE-2018-16845); Bugfix: 使用 gRPC 后端可能会导致内存过度消耗。 Nginx 1.15.6 在 1.14.1 的基础上额外包含...阅读全文

博文 2018-11-06 11:37:07 debian.cn

Jono Bacon: GPL 没落了吗?

不久之前我看到了 RedMonk 的 Stephen O'Grady 发了一个关于开源协议的有趣的推特,那个推特里面有这张图, Redmonk Black Duck Licensing 这张图片显示了从 2010 到 2017 年间各种开源协议之间的使的变化。在这张图片里,显然 GPL 2.0 —— 最纯净的 copyleft 协议之一 —— 的使降低了一多半。该图表表明,开源项目中 MIT 协议和 Apache 协议开始受欢迎。GPL 3.0 的使也有所上涨。 这些意味着什么? 为什么 GPL 2.0 的使跌的这么多但是 GPL 3.0 仅仅是涨了一丁点?为什么 MIT 协议和 Apache 协议的使涨了那么多? 当然,有很多原因可以解释这件事情,但是我想这是因为商业...阅读全文

博文 2017-08-04 08:03:43 debian.cn

阿里巴巴版 JDK 首发 GA 版 生产环境可用

增强和安全修复,主要针对的场景是数据中心大规模 Java 应用部署情况下,Java 应用稳定性、效率以及性能的优化与提高。从目前公开的功能和披露的规划上来看,Dragonwell 8 具有下述三大重要特性: JwarmUp JwarmUp 是为了解决双十一抢购场景下,阿里巴巴 Java 系统 warmup 的痛点。以普通的 Java 应用举例,JVM 需要经过解释执行 (interpreter) 找到热点,然后通过 JIT 编译器来加速热点方法的运行。对于高并发场景,应用启动之后会有很长时间处于寻找热点、编译热点的状态。这时,很多性能指标 (CPU 使、TPS 吞吐量、 RT 响应时间) 不是非常理想。换句话说,当 Java 应用启动并提供服务之后,在相当长的时间内处于 warmup 状...阅读全文

博文 2019-07-11 10:24:52 debian.cn

kubelet 中垃圾回收机制的设计与实现

已经停止的容器,默认为1;(maxPerPodContainerCount)--maximum-dead-containers:一个 node 上最多可以保留多少个已经停止的容器,默认为 -1,表示没有限制;--minimum-container-ttl-duration:已经退出的容器可以存活的最小时间,默认为 0s;与镜像回收有关的主要有以下三个参数:--image-gc-high-threshold:当 kubelet 磁盘达到多少时,kubelet 开始回收镜像,默认为 85% 开始回收,根目录以及数据盘;--image-gc-low-threshold:回收镜像时当磁盘使减少至多少时停止回收,默认为 80%;--minimum-image-ttl-duration:未使用的镜像...阅读全文

博文 2021-02-05 17:48:22 知乎

nginx 1.18.0 稳定版发布

导致访问受限而引起的时序攻击(Timing Attack)。 其他一些变更: 安全方面的改进,主要是修复针对 HTTP/2 客户端可能导致过多内存消耗和 CPU 使升高的问题修复 nginx 在某些情况下可能过多占用 CPU 的问题,以及许多其他错误修复需要使用 OpenSSL 0.9.8 或更高版本 nginx 1.18.0 下载地址:http://nginx.org/en/download.html 根据 nginx 发布新版的策略,“稳定”指的是功能和更新频率,它与软件质量无关。稳定分支在其生命周期中从不接收新功能,并且通常仅接收一个或两个更新,用于修复严重的错误。另外,稳定版本通常 fork 自最新的 mainline 版本。 因此,nginx 1.18.0 fork 自最新的...阅读全文

博文 2020-04-23 09:18:27 debian.cn

Linux 新提议,JFS 文件系统面临弃用和删除

在去年年初,SUSE 的开发者向 Linux 内核提交了一个 v2 补丁,该补丁将 ReiserFS 文件系统标记为已弃用,并将会在 2025 年从内核中正式删除它。删除的原因主要是过去十多年该文件系统都不再活跃,并且在现代内核的生产用例中也不太可能再使用。基于差不多的原因,日前开发者也开始着眼讨论 Journaled File-System(JFS)文件系统是否还应该在内核中继续保留的问题。​内核开发者 Christoph Hellwig 在邮件列表中表示:不久前,我们已经弃用了 ReiserFS,并计划将其删除。看着 JFS 中的代码,我想知道我们是否也应该这样做。虽然 JFS 不像 ReiserFS 那么复杂,但它的使也很低,而且从未成为任何主要发行版中的默认文件系统。1990...阅读全文

博文 2023-01-17 06:14:05 joseph

案例:Redis命令不当 引起数据库雪崩 造成数百万损失

最近的互联网线上事故发生比较频繁,9月19日网上爆料出顺丰近期发生了一起线上删库事件,在这里就不介绍了。 这里分享一下最近发生在我公司的事故,以及如何避免,并且如何处理优化。 该宕机的直接原因是使用 Redis 的 keys * 命令引起的,一共造成了某个服务化项目的两次宕机。 间接原因还有很多,技术跟不上业务的发展,由每日百万量到千万级是一个大的跨进,公司对于系统优化的处理优先级不高,技术开发人手的短缺。 第一次宕机 2018年9月13日的某个点,公司某服务化项目的 RDS 数据库实例连接飙升,CPU 升到 100%,拒绝了其他应用的所有请求服务。 整个过程如下: 监控报警,显示RDS的CPU使达到80%以上,DBA介入,准备KILL慢SQL 1分钟内,没有发现明显阻塞的SQL...阅读全文

博文 2018-10-27 10:18:18 debian.cn

Nginx 安全问题致 1400 多万台服务器易受 DoS 攻击

据外媒报道,近日 nginx 被爆出存在安全问题,有可能会致使 1400 多万台服务器易遭受 DoS 攻击。而导致安全问题的漏洞存在于 HTTP/2 和 MP4 模块中。nginx Web 服务器于11月6日发布了新版本,用于修复影响 1.15.6, 1.14.1 之前版本的多个安全问题,被发现的安全问题有一种这样的情况 —— 允许潜在的攻击者触发拒绝服务(DoS)状态并访问敏感的信息。 “在 nginx HTTP/2 实现中发现了两个安全问题,这可能导致过多的内存消耗(CVE-2018-16843)和CPU使(CVE-2018-16844)”,详见 nginx 的安全建议。 此外,“如果在配置文件中使用"listen"指令的"http2"选项,则问题会影响使用...阅读全文

博文 2018-11-09 11:43:37 debian.cn

80% 的 Oracle JDK 用户正在考虑替代方案

SDK 和 Azul。而在这 70% 的用户中,现在则有 80% 在考虑替代方案。 Azul 董事会主席 Bill Coleman 称,“领先的行业分析师一致认为,Oracle 的大多数 JVM 客户都在寻找更具成本效益的开源解决方案,该解决方案可支持原本不受支持的较早版本。” Azul Systems 透露,在 2020 年 2 月发布的软件开发人员的类似研究结果显示,对 Oracle JDK 的首选使已从 70% 下降至 34%,大部分现有用户都选择了免费或受支持的基于 OpenJDK 的部署。2020 版本 Snyk 和 Oracle 的调查也显示了相似的结果。 2020 年 JVM 生态系统报告还发现,有 86% 的受访者没有为 Java 支持付费。7% 的受访者表示,他们愿意根据发...阅读全文

博文 2020-05-27 08:13:46 debian.cn

深度解密基于 eBPF 的 Kubernetes 问题排查全景图

的最小集合。黄金指标有两个好处:一,直接了然地表达了系统是否正常对外服务。二,能快速评估对用户的影响或事态的严重性,能大量节省 SRE 或研发的时间,想象下如果我们取 CPU 使作为黄金指标,那么 SRE 或研发将会奔于疲命,因为 CPU 使高可能并不会造成多大的影响。Kubernetes 监测支持这些指标:请求数/QPS响应时间及分位数(P50、P90、P95、P99)错误数慢调用数如下图所示:​全局视角的服务拓扑诸葛亮曾言“不谋全局者,不足谋一域 ”。随着当下技术架构、部署架构的复杂度越来越高,发生问题后定位问题变得越来越棘手,进而导致 MTTR 越来越高。另一个影响是对影响面的分析带来非常大的挑战,通常会造成顾此失彼。因此,有一张像地图一样的拓扑大图非常必要。全局拓扑具有以下特...阅读全文

博文 2022-03-21 09:11:51 joseph

PostgreSQL 13 正式版发布

索引所需的整体空间使,同时提高了整体查询性能。 PostgreSQL 13 引入了增量排序,即在查询中较早步骤的排序数据可以加速后面步骤的排序。此外,PostgreSQL 现在可以使用扩展的统计信息(可通过CREATE STATISTICS访问)来为带有OR子句和IN/ ANY查找列表的查询创建改进的计划。 在 PostgreSQL 13 中,更多类型的聚合查询和分组查询可以利用 PostgreSQL 的高效哈希聚合功能,因为具有大型聚合的查询不必完全放入内存。对分区表的查询也得到了性能提升,因为现在有更多的情况下可以修剪分区和直接联接分区。 优化管理 清理(Vacuuming)是 PostgreSQL 管理的一个重要部分,使数据库在更新和删除行后能够回收存储空间。此过程也会带来管理上的...阅读全文

博文 2020-10-04 20:07:23 debian.cn

C++ 夺冠!成为 TIOBE 2022 年度编程语言

Swift 语言,其使出现明显上涨,从上个月的第 15 位跃升至第 11 位。 与此同时,在性能方面表现良好、被外界视为安全的编程语言,Rust 继上个月进入榜单前 20 位之后,这个月提升了两个位次。回看一年前,它还排在第 26 位,现如今在亚马逊、微软、Google 等公司的推动下,Rust 的增长也在情理之中。 有前途的语言:Kotlin、Julia、Dart 在更多的编程语言中,还有一些值得关注的变化: Lua 可以调用 C 语言函数而闻名,其位置从上月的第 30 位上升到本月的 24 位; F# 的发展有些出乎意外,一年前,它排在第 74 位,一年后,它到了第 33 位; 另外,TIOBE 还盘点出了三种非常有前景的语言,包括 Kotlin、Julia 和 Dart,不过,他们想要进入...阅读全文

博文 2023-01-10 06:42:12 CSDN博客

Tmux 快速教程:快捷键和配置

Tmux 简单来说就是终端里的『窗口管理器』,如果我使用终端登录到远程主机并运行前台程序,那么这个窗口等于就被占用了,想要看一下 CPU 的使,就得再连接一次。但是如果在远程主机上运行 tmux,那么就可以开启多个控制台(类似于窗口),相当高效,比方说可以像下面这样: 需要注意的是,这里是在我本地使用 tmux,最好在远程主机也安装 tmux,这样就只需要连接一次。 Hello World 前面提到的窗口管理只是 tmux 功能的一小部分,另一个很有用的功能就是,连接到远程主机之后,一旦断开,那么当前账户登录的任务就被取消了,但是使用 tmux 可以在断开之后继续工作,下次登录可以查看。其他的功能还有: 窗口切换,每个窗口里还可以分割面板 配置方便,可以使用脚本 类似 vim 的双层操...阅读全文

博文 2017-11-07 15:17:49 debian.cn

为何说微软不会基于Linux内核重构Windows

。而且,他还作为 MVP (微软最有价值专家)参与微软产品和策略的各种简报会。 对于近日流行的“微软应该迁移 Windows 系统核心至 Linux 内核”说法,他表示从产品和工程角度来说微软在任何情况下都不可能这么做。 在说明具体原因之前,Barnes 认为在 Slashdot 和 Hacker News 上不断出现这个观点的原因: 能够吸引用户点击对于开源和 Linux 倡导者来说,这是一个很早就存在的幻想。目前,Windows 扮演的角色正在发生变化。尤其是当前 Android、iOS、macOS、Chrome OS 和 Ubuntu 都基于 Linux 的世界里伴随着 Linux 在 Azure 和 WSL 的使增加,这种合理性正在不断增加。奥弗顿之窗(The Overton...阅读全文

博文 2020-10-15 14:59:58 debian.cn

Docker 核心原理

子系统(即资源控制器) 1 2 3 4 5 6 7 8 root@lxkaka-server:~# lssubsys cpuset # 分配单独的 cpu 节点或者内存节点 cpu,cpuacct # 限制进程的 cpu 使;cpu 使用统计 blkio # 限制进程的块设备 io memory # 限制进程的 memory 使用量 devices # 控制进程能够访问某些设备 freezer # 挂起或者恢复 cgroups 中的进程。 net_cls,net_prio # 可以标记 cgroups 中进程的网络数据包,对数据包进行控制 hierarch 层级关系 由一系列控制组以一个树状结构排列而成,hierarch 通过绑定对应的子系统进行资源调度。hierarch 中的...阅读全文

博文 2021-02-25 09:14:23 lxkaka

Monit:开源服务器监控工具

不指向目录,monit将禁用对此条目的监视。如果Monit在被动模式下运行或者没有定义启动方法,Monit只会在错误时发送警报。 远程主机 CHECK HOST ADDRESS 主机地址可以指定为主机名字符串或点分十进制格式的IP地址字符串。例如,tildeslash.com或“64.87.72.95”。 系统 CHECK SYSTEM 的唯一的名称通常是本地主机名,而是可以使用任何描述性名称。如果使用变量$ HOST作为名称,它将扩展为主机名。此检查允许监控一般系统资源,如CPU使,总内存使用或负载平均。该唯一名称在邮件警报中用作系统主机名,在M/Monit中用作主机条目的初始名称。 自定义...阅读全文

博文 2023-04-12 15:21:43 阿里云开发者社区

Apache Flink 1.14 新特性预览 - OSCHINA

的方式希望能够达到更加精细的资源管理和资源的使。 五、Table / SQL / Python API 1. Table API / SQL Window Table-Valued Function 支持更多算子与窗口类型 ,可以看如下表格的对比: 从表格中可以看出对于原有的三个窗口类型进行加强,同时新增 Session 窗口类型,目前支持 Aggregate 的操作。 ■ 1.1 支持声明式注册 Source/Sink Table API 支持使用声明式的方式注册 Source / Sink 功能对齐 SQL DDL; 同时支持 FLIP-27 新的 Source 接口; new Source 替代旧的 connect() 接口。 ■ 1.2 全新代码生成器 解决了大家在生成代码超过...阅读全文

博文 2021-09-05 07:26:58 中文开源技术交流社区

得物云原生全链路追踪Trace2.0-采集篇 - OSCHINA

误数:如 HTTP 500 错误。当然,有些即便是 HTTP 200 状态也需要根据特定业务逻辑来区分当前请求是否属于“错误”请求。 饱和度:类似服务器硬件资源如CPU,内存,网络的使等等。 所以,我们决定使用 Micrometer 库来对各个组件进行吞吐量,延迟和错误率的埋点,从而对 DB 类,RPC类的组件做性能监控。因此也可以说,我们第二阶段的监控是以指标监控为主,调用链监控为辅的应用性能监控。 3.1 使用 Endpoint 贯穿指标埋点帮助性能分析 在指标埋点过程中,我们在所有的指标中引入了“流量入口(Endpoint)”标签。这个标签的引入,实现了根据不同流量入口来区分关联 DB,缓存,消息队列,远程调用类的行为。通过流量入口,贯穿了一个实例的所有组件指标,基本满足了以下场景...阅读全文

博文 2022-12-10 06:50:41 中文开源技术交流社区

谷歌公开了内部管理Infra层的两个工具的Paper

asset——这是检查的基础。我们使用检查来延迟(而不是拒绝)对生产的更改。 Annealing可以洞察并且控制它执行的整个服务。这让Annealing拥有独特的中央视角,允许检查在整个生产过程中轻松实施不变量。这让检查在概念上通常很简单,但功能很强大。比如: 日历检查避免在周末或者节假日推送监控检查验证当前没有警报,或者系统现在没有过载容量检查会阻止将服务容量降低到最近最大使之下的推送依赖解决器对并发更改进行排序,以确保正确的执行顺序。 依赖解决器是我们介绍的第一个check。它确保以正确的顺序推送asset。想一想图6的Shakespeare服务:当减少某个集群的占用空间时,通常需要更新负载均衡器的配置,以减少该群集提供的最大容量,然后再减少前端的副本数量——这样,你不会遇到前端无法承担发送...阅读全文

博文 2023-01-08 11:23:20 CSDN博客