InfraPub 为您找到相关结果 26

基于thanos搭建分布式prometheus

prometheus存在单点问题,具体痛点可以这么描述: prometheus单机存储和抓取能力都有上限,容易单点故障。 虽然有一种方式是通过部署N个prometheus分别抓取不同的target来分摊压力的,但是grafana就要为不同的图表配置不同的prometheus地址,复杂程度比较棘手。 thanos+prometheus可以解决这个问题,它提供了一个核心能力: 1,thanos querier组件可以反向代理到N个prometheus,然后grafana直接指向thanos querier即可,thanos querier会从N个prometheus同时查询数据,返回满足Promql的数据结果; 2,如果N个prometheus抓取的数据存在重复的,那么thanos...阅读全文

博文 2021-03-01 13:02:46 鱼儿的博客

Cortex: 高可用和水平扩展Prometheus监控系统

Prometheus已成为cloud-native世界中的默认监控应用程序和系统。对于真是使用案例,Prometheus应该是高可用的,这是有挑战的。一旦在高可用性模式下运行Prometheus,就会遇到很多问题,例如数据重复,为重复数据实现single pane等。为了解决此问题,Cortex诞生了。Cortex是一个CNCF sandbox project,旨在为使用Prometheus 收集的指标提供长期存储和全局指标视图。首先让我们看一下Cortex的主要目标,然后看一下它为Prometheus解决的一些问题。水平可伸缩性– Cortex可以分成多个微服务,每个微服务都可以独立地水平伸缩。例如,如果许多Prometheus实例正在向Cortex发送数据,则可以扩展Ingester微...阅读全文

博文 2021-10-09 17:00:22 知乎

Golang 应用集成 Prometheus 统计数据支持

基本概念 Prometheus 所有采集的监控数据均以指标(metric)的形式保存在内置的时间序列数据库当中(TSDB):属于同一指标名称,同一标签集合的、有时间戳标记的数据流。除了存储的时间序列,Prometheus 还可以根据查询请求产生临时的、衍生的时间序列作为返回结果。 样本在时间序列中的每一个点称为一个样本(sample),样本由以下三部分组成: 指标(metric):指标名称和描述当前样本特征的 labelsets; 时间戳(timestamp):一个精确到毫秒的时间戳; 样本值(value): 一个 folat64 的浮点型数据表示当前样本的值。 {

博文 2022-11-24 10:33:09 CSDN博客

监控Kubernetes集群证书过期时间的三种方案 - OSCHINA

用 kube-prometheus-stack 通过 apiserver 和 kubelet 组件监控获取相关证书过期时间; 使用 enix 的 x509-certificate-exporter监控集群所有node的 /etc/kubernetes/pki 和 /var/lib/kubelet 下的证书以及 kubeconfig 文件 方案一: Blackbox Exporter 监控 Kubernetes apiserver 证书过期时间 Blackbox Exporter 用于探测 HTTPS、HTTP、TCP、DNS、ICMP 和 grpc 等 Endpoint。在你定义 Endpoint 后,Blackbox Exporter 会生成指标,可以使用 Grafana 等工具进行可视化...阅读全文

博文 2022-12-10 06:49:43 中文开源技术交流社区

服务监控系统 Prometheus 2.0 发布

服务监控系统 Prometheus 2.0 已发布,Prometheus 是一个 Go 语言开发的开源的服务监控系统和时间序列数据库。 Prometheus 2.0 有一个简单而强大的运营模式。然而,基础设施领域也没有停滞不前,像 Kubernetes 和 Mesos 这样的项目正在迅速改变软件的部署和管理方式。受监控的环境变得越来越活跃。 存储 Prometheus 2.0 有性能显着提高,几乎在所有方面都有所改进。查询延迟更加一致,特别是在高系列流失的情况下,它的规模更大。在不同的现实世界生产情景下测量的资源消耗也显着下降: 与 Prometheus1.8 相比,CPU 使用率 降低了 20% – 40% 与普 Prometheus1.8 相比, 磁盘空间使用率 降低了 33...阅读全文

博文 2017-11-09 10:44:45 debian.cn

通过Prometheus查询K8S集群Pod 的CPU、内存、网络指标

Kubernetes的kubelet组件内置了cadvisor,将Node上容器的指标以Prometheus支持的格式展示,可以通过这些指标计算得到更多有用的数据。 Kubelet的Cadvisor指标获取 在Prometheus的配置文件中,配置了相关的Target之后,这些指标就可以从Prometheus中查询到。 - job_name: 'kubernetes-cadvisor' scheme: https tls_config: ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount...阅读全文

博文 2020-08-13 20:41:03 debian.cn

Prometheus 常用 PromQL 语句样例

PromQL 是 Prometheus 提供的一个函数式的表达式语言,可以使用户实时地查找和聚合时间序列数据。表达式计算结果可以在图表中展示,也可以在 Prometheus表达式浏览器中以表格形式展示,或者作为数据源,以 HTTP API 的方式提供给外部系统使用。PromQL 虽然以 QL 结尾,但是它不是类似 SQL 的语言,因为在时间序列上执行计算类型时,SQL 语言相对缺乏表达能力。而 PromQL 语言表达能力非常丰富,可以使用标签进行任意聚合,还可以使用标签将不同的标签连接到一起进行算术运算操作。内置了时间和数学等很多函数可以使用 选择序列选择指定指标名称的序列最新样本: my_metric_name选择指定指标名称序列5分钟的样本范围: my_metric_name[5m]筛...阅读全文

博文 2021-02-09 11:07:15 51CTO博客

Prometheus 2.13.0 发布

服务监控系统 Prometheus 2.13.0-rc.0 发布了,Prometheus 是一个 Go 语言开发的开源的服务监控系统和时间序列数据库。该版本引入了一些新特性,比如记录其他组件、增强功能和修复 bug,这些都是为了提高可用性。 更新内容如下: [SECURITY/BUGFIX] UI:修复了一个 Stored DOM XSS 漏洞 CVE-2019-10215. #6098[CHANGE] Metrics:将 prometheus_sd_configs_failed_total 重命名为 prometheus_sd_failed_configs,并更改为仪表 #5254[ENHANCEMENT] 在构建中包含 tsdb 工具 #6089[ENHANCEMENT...阅读全文

Grafana 6.4.4 发布,系统指标监控与分析平台

Grafana 6.4.4 发布了,Grafana 是一个功能丰富的指标标准仪表板和图形编辑器,用于分析和监控 Graphite、Elasticsearch、OpenTSDB、Prometheus 和 InfluxDB。 新版本更新说明如下: Bug Fixes DataLinks:修复模糊问题 #19883Docker:使解析 Docker 镜像中的时区成为可能 #20081LDAP:即使其中一个返回连接错误,也应尝试所有 LDAP 服务器 #20077LDAP:不再根据调试页面中的角色显示不正确匹配的组 #20018Singlestat:修复无数据/空值映射 #19951 详细更新说明:https://github.com/grafana/grafana/releases/tag...阅读全文

博文 2019-11-09 08:48:39 debian.cn

Grafana 6.3.3发布 系统指标监控与分析平台

Grafana 6.3.3 发布了,Grafana 是一个功能丰富的指标标准仪表板和图形编辑器,用于分析和监控 Graphite、Elasticsearch、OpenTSDB、Prometheus 和 InfluxDB。 新版本更新主要是 Bug修复,具体如下: Annotations:修复取消时间序列查询时,失败的注释查询 #18532Auth:如果 cookie_samesite 为 none,请不要设置 SameSite cookie 属性 #18462DataLinks:正确地将范围变量应用于数据链接 #18454DataLinks:在图形上下文菜单中显示数据点的时间戳时,遵守时区 #18461DataLinks:插值变量时,正确使用数据点时间戳 #18459Explore:修复空...阅读全文

博文 2019-08-17 21:20:29 debian.cn

监控告警Keep

Keep是一款功能强大的开源告警管理和AIOps平台,它专注于帮助开发和运维团队更高效地处理告警问题。该平台提供了集中式的仪表板界面,支持与Prometheus、Grafana、Datadog、Slack等主流监控工具和通信平台的双向集成。 平台的一大特色是支持通过YAML文件声明式地定义工作流,用户可以轻松配置告警的触发条件、处理步骤和响应动作,实现告警处理的自动化。同时,Keep采用API优先的设计理念,开发者可以直接通过代码管理工作流,便于与现有系统无缝集成。 值得一提的是,Keep正在积极开发AI关联和AI摘要等智能化功能,未来将进一步提升告警处理的智能化水平,帮助团队更好地降低告警噪音,提升运维效率。这些特性使Keep成为一个极具前景的开源运维工具。...阅读全文

开源项目 2024-12-09 09:31:00

Grafana v6.0.0 发布,数据展示与分析平台

Grafana v6.0.0 正式版发布了。Grafana 是一个功能丰富的指标标准仪表板和图形编辑器,用于分析和监控 Graphite、Elasticsearch、OpenTSDB、Prometheus 和 InfluxDB。 新版是 Bug 修复版本,更新内容如下: Stackdriver: fix for float64 bounds for distribution metrics #14509Stackdriver: no reducers available for distribution type #15179Dashboard: fixes click after scroll in series override menu #15621MySQL: fix mysql...阅读全文

博文 2019-02-26 12:52:16 debian.cn

Rancher 2.3 发布:支持Windows容器 集成Istio

Istio的集成,极大简化了Istio的安装和配置,Rancher中现已内置支持: 用于流量和遥测可视化的Kiali仪表板用于追踪的Jaeger用于监控和可观察性的Prometheus和Grafana Rancher 2.3还正式支持了Kubernetes v1.15.x和Docker 19.03。 增强Kubernetes安全性 Rancher 2.3引入了“集群模板”功能,它可以让企业在整个基础架构中实施一致的集群配置,进而帮助企业降低安全风险。具体而言,通过使用集群模板: 运维人员可以在其所有集群部署中创建、保存并放心使用经过良好测试的Kubernetes配置。管理员可以启用配置强制实施,从而抑制配置漂移或不当的配置错误。如果创建更多的集群,这些配置不当可能会带来安全风险。...阅读全文

博文 2019-10-10 11:44:14 debian.cn

Kong 1.3 发布:原生 gRPC 代理、上游 TLS 交叉认证

Kong 1.3 发布了,此版本亮点包括支持原生 gRPC 代理、上游 TLS 交叉认证,以及一系列新功能和性能改进。 原生 gRPC 代理 越来越多的用户转向微服务架构,并且希望有对原生 gRPC 代理的支持,Kong 1.3 解决了这个问题,为支持 gRPC 的基础架构带来更多可控性和可见性。路由和服务条目的协议属性现在可以设置为 grpc 或 grpcs,这对应于通过明文 HTTP/2(h2c)的 gRPC 和通过 TLS HTTP/2(h2)的 gRPC。 这一功能的关键优势在于: 简化运作流程。为用户的 gRPC 服务添加 A/B 测试、自动重试和断路保护,以提高系统可靠性。更具观察性。为 gRPC 服务增强日志记录、分析与 Prometheus 集成。 上游 TLS 交叉认证...阅读全文

博文 2019-08-22 14:54:57 debian.cn

prometheus通过node_exporter抓取的数据准确计算磁盘使用率

) 诡异的df算法 主要的原因就是每个分区有一个给管理员的预留空间,保证即使普通用户写满其空间,管理员还可以进行操作,普通用户的可使用空间是总空间减去预留空间,该文章并给出了具体的预留空间计算规则 reserved = fsu_blocksize * (fsu_bfree - fsu_bavail) 然后看了node_exporter的源码,核心的代码在github.com/prometheus/node_exporter/collector/filesystem_linux.go的101行 stats = append(stats, filesystemStats{ labels: labels, size: float64(buf.Blocks) * float64(buf.Bsize...阅读全文

博文 2021-01-30 20:26:49 中文开源技术社区

得物云原生全链路追踪Trace2.0-采集篇 - OSCHINA

的调用链路通常复杂多变,站在流量角度上看,需要完整地知道它的来源,上下游链路,异步调用等等,这对于 CAT 来说可能略显超纲。 缺少图表定制化能力: CAT 虽供多维度报表分析,但定制化能力非常有限,在当时,业内的图表组件定制化解决方案逐步向 Grafana + Prometheus 靠拢,但若使用 CAT,则无法享受强大的图表绘制能力。与此同时,随着云原生社区可观测性项目 OpenTracing 的崛起,大约不到半年时间我们逐步下线了 CAT,向 OpenTracing 生态演进。 三、 0x02 第二阶段 持续创造 基于OpenTracing全链路采样监控 OpenTracing 为全链路追踪 Trace 定制了完整的一套协议标准,本身并不提供实现细节。在 OpenTracing 协议中...阅读全文

博文 2022-12-10 06:50:41 中文开源技术交流社区

Kubernetes常用命令大全(持续更新)

,services -l name=myLabel #### 删除具有 name=myLabel 标签的 pod 和 serivce kubectl delete pods,services -l name=myLabel --include-uninitialized #### 删除具有 name=myLabel 标签的 pod 和 service,包括尚未初始化的 kubectl -n my-ns delete po,svc --all #### 删除 my-ns namespace下的所有 pod 和 serivce,包括尚未初始化的 kubectl delete pods prometheus-7fcfcb9f89-qkkf7 --grace-period=0 --force 强制删除 交互...阅读全文

博文 2020-03-13 12:35:13 debian.cn

最全的 DevOps 工具集合

就会使用管理员定义的策略。 Kubernetes 架构(灰色部分是容器,彩色部分是 pods),©GoogleInc. 监控和记录工具 监控和记录工具主要是为了在发生故障时快速响应,快速恢复,同时减少事故期间的人员参与。目前业内比较常用的监控和记录工具包括 ELK Stack、Datadog、New Relic、Prometheus、Zipkin 和 Azure Monitor。 ELK Stack ELK Stack 是三个开源产品的集合——它们分别是 Elasticsearch、Logstash 和 Kibana。它们都是由 Elastic 公司开发、管理和维护的。 E 代表 ElasticSearch,用于存储日志 L 代表 Logstash,用于传输、处理和存储日志 K 代表...阅读全文

博文 2021-05-26 14:35:21 博客园

译:Kubernetes 最佳实践

览我之前翻译的Kubernetes 的自动伸缩你用对了吗?;HPA 除了可以基于 CPU 指标伸缩,还可以基于内存,或者自定义指标,可以浏览Kubernetes HPA 基于 Prometheus 自定义指标的可控弹性伸缩。使用资源请求和约束应设置资源请求和约束(可在容器中使用的最小和最大资源量)以避免容器在未分配所需资源的情况下启动,或集群用尽可用资源。在没有限制的情况下,Pod 可以使用比所需更多的资源,从而导致可用资源总量减少,这可能会导致集群上的其他应用程序出现问题。节点可能会崩溃,并且调度程序可能无法正确调度新的 pod。如果没有请求,无法为应用程序分配足够的资源,它可能会在尝试启动或执行异常时失败。资源请求和限制以毫核和兆字节为单位定义可用的 CPU 和内存。请注意,如果进程超出...阅读全文

博文 2022-09-13 19:32:21 atbug.com

Ceph 12.2.0 正式版本发布, 代号 Luminous

。 ceph-mgr还包括一个Prometheus插件。 ceph-mgr现在有一个Zabbix插件。使用zabbix_sender,它可以将集群故障事件发送到Zabbix Server主机。 这样可以方便地监视Ceph群集的状态,并在发生故障时发送通知。 集群的总体可扩展性有所提高。我们已经成功测试了多达10,000个OSD的集群。 目前,每个OSD都具有与其相关联的设备类(例如,hdd或ssd),允许CRUSH规则将数据简单地映射到系统中的设备的子集。 通常不需要手动编写CRUSH规则或手动编辑CRUSH。可以优化CRUSH权重,以保持OSD之间数据的近乎完美的分布。 还有一个新的upmap异常处理机制,允许单个PG移动以实现完美的分发(这需要客户端)。 每个OSD目前可以根据后端设备是HDD还是...阅读全文

博文 2017-08-31 13:36:49 debian.cn

Docker 17.06 社区版发布

的支持。可以将docker的/metrics端点暴露给插件: $ docker plugin install --grant-all-permissions cpuguy83/docker-metrics-plugin-test:latest $ curl http://127.0.0.1:19393/metrics 这个插件仅用于示范。它在主机的网络上运行了一个反向代理,能将请求转发给插件中的本地的指标套接字。在真实场景中,可能会将收集的指标数据发送给外部的服务,或者使它可以被一个服务如Prometheus访问并收集。 注意尽管指标插件在非实验性的daemon中可以使用,指标标签(metrics label)仍应该被看作是实验性的,可能在Docker未来的版本中发生改动。 日志驱动插件 添...阅读全文

博文 2017-06-30 23:08:57 debian.cn

分布式运行时 Dapr 知多少

/actors///reminders/ 6. Observability(遥测) Dapr记录指标,日志,链路以调试和监视Dapr和用户应用的运行状况。 Dapr支持分布式跟踪,其使用W3C跟踪上下文标准和开放式遥测技术,可以轻松地诊断在生产环境中服务间的网络调用,并发送到不同的监视工具,如Prometheus。 7. Secrets(安全) Dapr 提供了Secret管理,不过不同于K8S中的Secret,其支持与公有云和本地的Secret存储集成,以供应用检索使用。 What Can We Do With Dapr 了解了Dapr是什么,以及其提供的特性,那Dapr的应用场景就一目了然了。也就是官网首页的Slogan:Simplify...阅读全文

7大维度看国外企业为啥选择gRPC打造高性能微服务

能捕获更多的bug。使用Checkstyle作为Java代码,并且把它用作类似于protobuf的文件。自定义拦截器可以提供跟踪,日志记录和错误监视功能。我们希望开源我们的Bugsnag gRPC拦截器,以自动捕获并向Bugsnag报告错误。gRPC的增长和采用 在过去几年中,gRPC的普及度大幅增长,Square,Lyft,Netflix,Docker,Cisco和CoreOS等公司大规模采用。Netflix Ribbon是基于RPC调用使用REST的微服务通信框架的事实标准。今年,他们宣布,由于其多语言支持和更好的可扩展性/可组合性,他们正在向gRPC过渡。该框架最近也于2017年3月加入了CNCF基金会,支持重量级的Kubernetes和Prometheus。gRPC社区非常活跃,与开...阅读全文

博文 2018-03-19 17:51:32 debian.cn

kubectl 创建 Pod 背后到底发生了什么?—探寻 Kubectl 创建 Pod 的原理

开始同步 Pod 列表。我们来详细分析一下同步过程: 如果 Pod 正在创建, Kubelet 就会记录一些在 Prometheus 中用于追踪 Pod 启动延时的指标。 然后生成一个 PodStatus 对象,它表示 Pod 当前阶段的状态。Pod 的状态(Phase) 是 Pod 在其生命周期中的最精简的概要,包括 Pending,Running,Succeeded,Failed 和 Unkown 这几个值。状态的产生过程非常过程,所以很有必要深入了解一下背后的原理: 首先串行执行一系列 Pod 同步处理器(PodSyncHandlers),每个处理器检查检查 Pod 是否应该运行在该节点上。当所有的处理器都认为该 Pod 不应该运行在该节点上,则 Pod 的 Phase 值就会变成...阅读全文

博文 2022-04-18 16:18:04 CSDN