搜索 - infras.cn

基于thanos搭建分布式prometheus

prometheus存在单点问题，具体痛点可以这么描述： prometheus单机存储和抓取能力都有上限，容易单点故障。虽然有一种方式是通过部署N个prometheus分别抓取不同的target来分摊压力的，但是grafana就要为不同的图表配置不同的prometheus地址，复杂程度比较棘手。 thanos+prometheus可以解决这个问题，它提供了一个核心能力： 1，thanos querier组件可以反向代理到N个prometheus，然后grafana直接指向thanos querier即可，thanos querier会从N个prometheus同时查询数据，返回满足Promql的数据结果； 2，如果N个prometheus抓取的数据存在重复的，那么thanos...阅读全文

博文 2021-03-01 13:02:46 鱼儿的博客

阅读:838次评论:0条 1人喜欢

Cortex: 高可用和水平扩展Prometheus监控系统

Prometheus已成为cloud-native世界中的默认监控应用程序和系统。对于真是使用案例，Prometheus应该是高可用的，这是有挑战的。一旦在高可用性模式下运行Prometheus，就会遇到很多问题，例如数据重复，为重复数据实现single pane等。为了解决此问题，Cortex诞生了。Cortex是一个CNCF sandbox project，旨在为使用Prometheus 收集的指标提供长期存储和全局指标视图。首先让我们看一下Cortex的主要目标，然后看一下它为Prometheus解决的一些问题。水平可伸缩性– Cortex可以分成多个微服务，每个微服务都可以独立地水平伸缩。例如，如果许多Prometheus实例正在向Cortex发送数据，则可以扩展Ingester微...阅读全文

博文 2021-10-09 17:00:22 知乎

阅读:548次评论:0条 0人喜欢

Golang 应用集成 Prometheus 统计数据支持

基本概念 Prometheus 所有采集的监控数据均以指标（metric）的形式保存在内置的时间序列数据库当中（TSDB）：属于同一指标名称，同一标签集合的、有时间戳标记的数据流。除了存储的时间序列，Prometheus 还可以根据查询请求产生临时的、衍生的时间序列作为返回结果。样本在时间序列中的每一个点称为一个样本（sample），样本由以下三部分组成：指标（metric）：指标名称和描述当前样本特征的 labelsets；时间戳（timestamp）：一个精确到毫秒的时间戳；样本值（value）：一个 folat64 的浮点型数据表示当前样本的值。 {=, ...} Metric类型...阅读全文

博文 2022-11-24 10:33:09 CSDN博客

阅读:299次评论:0条 0人喜欢

监控Kubernetes集群证书过期时间的三种方案 - OSCHINA

用 kube-prometheus-stack 通过 apiserver 和 kubelet 组件监控获取相关证书过期时间; 使用 enix 的 x509-certificate-exporter监控集群所有node的 /etc/kubernetes/pki 和 /var/lib/kubelet 下的证书以及 kubeconfig 文件方案一: Blackbox Exporter 监控 Kubernetes apiserver 证书过期时间 Blackbox Exporter 用于探测 HTTPS、HTTP、TCP、DNS、ICMP 和 grpc 等 Endpoint。在你定义 Endpoint 后，Blackbox Exporter 会生成指标，可以使用 Grafana 等工具进行可视化...阅读全文

博文 2022-12-10 06:49:43 中文开源技术交流社区

阅读:327次评论:0条 0人喜欢

服务监控系统 Prometheus 2.0 发布

服务监控系统 Prometheus 2.0 已发布，Prometheus 是一个 Go 语言开发的开源的服务监控系统和时间序列数据库。 Prometheus 2.0 有一个简单而强大的运营模式。然而，基础设施领域也没有停滞不前，像 Kubernetes 和 Mesos 这样的项目正在迅速改变软件的部署和管理方式。受监控的环境变得越来越活跃。存储 Prometheus 2.0 有性能显着提高，几乎在所有方面都有所改进。查询延迟更加一致，特别是在高系列流失的情况下，它的规模更大。在不同的现实世界生产情景下测量的资源消耗也显着下降：与 Prometheus1.8 相比，CPU 使用率降低了 20％ – 40％与普 Prometheus1.8 相比，磁盘空间使用率降低了 33...阅读全文

博文 2017-11-09 10:44:45 debian.cn

阅读:382次评论:0条 0人喜欢

通过Prometheus查询K8S集群Pod 的CPU、内存、网络指标

Kubernetes的kubelet组件内置了cadvisor，将Node上容器的指标以Prometheus支持的格式展示，可以通过这些指标计算得到更多有用的数据。 Kubelet的Cadvisor指标获取在Prometheus的配置文件中，配置了相关的Target之后，这些指标就可以从Prometheus中查询到。 - job_name: 'kubernetes-cadvisor' scheme: https tls_config: ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount...阅读全文

博文 2020-08-13 20:41:03 debian.cn

阅读:3464次评论:0条 0人喜欢

Prometheus 常用 PromQL 语句样例

PromQL 是 Prometheus 提供的一个函数式的表达式语言，可以使用户实时地查找和聚合时间序列数据。表达式计算结果可以在图表中展示，也可以在 Prometheus表达式浏览器中以表格形式展示，或者作为数据源，以 HTTP API 的方式提供给外部系统使用。PromQL 虽然以 QL 结尾，但是它不是类似 SQL 的语言，因为在时间序列上执行计算类型时，SQL 语言相对缺乏表达能力。而 PromQL 语言表达能力非常丰富，可以使用标签进行任意聚合，还可以使用标签将不同的标签连接到一起进行算术运算操作。内置了时间和数学等很多函数可以使用选择序列选择指定指标名称的序列最新样本： my_metric_name选择指定指标名称序列5分钟的样本范围： my_metric_name[5m]筛...阅读全文

博文 2021-02-09 11:07:15 51CTO博客

阅读:437次评论:0条 0人喜欢

Prometheus storage: technical terms for humans

https://valyala.medium.com/prometheus-storage-technical-terms-for-humans-4ab4de6c3d48...阅读全文

主题 2021-02-07 19:07:30 joseph

prometheus

阅读:472次评论:0条 0人喜欢

Prometheus 2.13.0 发布

服务监控系统 Prometheus 2.13.0-rc.0 发布了，Prometheus 是一个 Go 语言开发的开源的服务监控系统和时间序列数据库。该版本引入了一些新特性，比如记录其他组件、增强功能和修复 bug，这些都是为了提高可用性。更新内容如下： [SECURITY/BUGFIX] UI：修复了一个 Stored DOM XSS 漏洞 CVE-2019-10215. #6098[CHANGE] Metrics：将 prometheus_sd_configs_failed_total 重命名为 prometheus_sd_failed_configs，并更改为仪表 #5254[ENHANCEMENT] 在构建中包含 tsdb 工具 #6089[ENHANCEMENT...阅读全文

博文 2019-10-07 10:14:57 debian.cn

阅读:339次评论:0条 0人喜欢

Grafana 6.4.4 发布，系统指标监控与分析平台

Grafana 6.4.4 发布了，Grafana 是一个功能丰富的指标标准仪表板和图形编辑器，用于分析和监控 Graphite、Elasticsearch、OpenTSDB、Prometheus 和 InfluxDB。新版本更新说明如下： Bug Fixes DataLinks：修复模糊问题 #19883Docker：使解析 Docker 镜像中的时区成为可能 #20081LDAP：即使其中一个返回连接错误，也应尝试所有 LDAP 服务器 #20077LDAP：不再根据调试页面中的角色显示不正确匹配的组 #20018Singlestat：修复无数据/空值映射 #19951 详细更新说明：https://github.com/grafana/grafana/releases/tag...阅读全文

博文 2019-11-09 08:48:39 debian.cn

阅读:360次评论:0条 0人喜欢

TimescaleDB 1.0 正式版发布！基于PostgreSQL的时序数据库

Prometheus 的原生支持 1.0 是 TimescaleDB 的开始，关于该版本的更新内容请点此查看。下载地址：https://github.com/timescale/timescaledb/releases/tag/1.0.0...阅读全文

博文 2018-11-03 23:23:44 debian.cn

阅读:436次评论:0条 0人喜欢

Grafana 6.3.3发布系统指标监控与分析平台

Grafana 6.3.3 发布了，Grafana 是一个功能丰富的指标标准仪表板和图形编辑器，用于分析和监控 Graphite、Elasticsearch、OpenTSDB、Prometheus 和 InfluxDB。新版本更新主要是 Bug修复，具体如下： Annotations：修复取消时间序列查询时，失败的注释查询 #18532Auth：如果 cookie_samesite 为 none，请不要设置 SameSite cookie 属性 #18462DataLinks：正确地将范围变量应用于数据链接 #18454DataLinks：在图形上下文菜单中显示数据点的时间戳时，遵守时区 #18461DataLinks：插值变量时，正确使用数据点时间戳 #18459Explore：修复空...阅读全文

博文 2019-08-17 21:20:29 debian.cn

阅读:356次评论:0条 0人喜欢

Grafana v6.0.0 发布，数据展示与分析平台

Grafana v6.0.0 正式版发布了。Grafana 是一个功能丰富的指标标准仪表板和图形编辑器，用于分析和监控 Graphite、Elasticsearch、OpenTSDB、Prometheus 和 InfluxDB。新版是 Bug 修复版本，更新内容如下： Stackdriver: fix for float64 bounds for distribution metrics #14509Stackdriver: no reducers available for distribution type #15179Dashboard: fixes click after scroll in series override menu #15621MySQL: fix mysql...阅读全文

博文 2019-02-26 12:52:16 debian.cn

阅读:404次评论:0条 0人喜欢

Rancher 2.3 发布：支持Windows容器集成Istio

Istio的集成，极大简化了Istio的安装和配置，Rancher中现已内置支持：用于流量和遥测可视化的Kiali仪表板用于追踪的Jaeger用于监控和可观察性的Prometheus和Grafana Rancher 2.3还正式支持了Kubernetes v1.15.x和Docker 19.03。增强Kubernetes安全性 Rancher 2.3引入了“集群模板”功能，它可以让企业在整个基础架构中实施一致的集群配置，进而帮助企业降低安全风险。具体而言，通过使用集群模板：运维人员可以在其所有集群部署中创建、保存并放心使用经过良好测试的Kubernetes配置。管理员可以启用配置强制实施，从而抑制配置漂移或不当的配置错误。如果创建更多的集群，这些配置不当可能会带来安全风险。...阅读全文

博文 2019-10-10 11:44:14 debian.cn

阅读:373次评论:0条 0人喜欢

Kong 1.3 发布：原生 gRPC 代理、上游 TLS 交叉认证

Kong 1.3 发布了，此版本亮点包括支持原生 gRPC 代理、上游 TLS 交叉认证，以及一系列新功能和性能改进。原生 gRPC 代理越来越多的用户转向微服务架构，并且希望有对原生 gRPC 代理的支持，Kong 1.3 解决了这个问题，为支持 gRPC 的基础架构带来更多可控性和可见性。路由和服务条目的协议属性现在可以设置为 grpc 或 grpcs，这对应于通过明文 HTTP/2（h2c）的 gRPC 和通过 TLS HTTP/2（h2）的 gRPC。这一功能的关键优势在于：简化运作流程。为用户的 gRPC 服务添加 A/B 测试、自动重试和断路保护，以提高系统可靠性。更具观察性。为 gRPC 服务增强日志记录、分析与 Prometheus 集成。上游 TLS 交叉认证...阅读全文

博文 2019-08-22 14:54:57 debian.cn

阅读:378次评论:0条 0人喜欢

prometheus通过node_exporter抓取的数据准确计算磁盘使用率

) 诡异的df算法主要的原因就是每个分区有一个给管理员的预留空间，保证即使普通用户写满其空间，管理员还可以进行操作，普通用户的可使用空间是总空间减去预留空间，该文章并给出了具体的预留空间计算规则 reserved = fsu_blocksize * (fsu_bfree - fsu_bavail) 然后看了node_exporter的源码，核心的代码在github.com/prometheus/node_exporter/collector/filesystem_linux.go的101行 stats = append(stats, filesystemStats{ labels: labels, size: float64(buf.Blocks) * float64(buf.Bsize...阅读全文

博文 2021-01-30 20:26:49 中文开源技术社区

阅读:580次评论:0条 0人喜欢

得物云原生全链路追踪Trace2.0-采集篇 - OSCHINA

的调用链路通常复杂多变，站在流量角度上看，需要完整地知道它的来源，上下游链路，异步调用等等，这对于 CAT 来说可能略显超纲。缺少图表定制化能力： CAT 虽供多维度报表分析，但定制化能力非常有限，在当时，业内的图表组件定制化解决方案逐步向 Grafana + Prometheus 靠拢，但若使用 CAT，则无法享受强大的图表绘制能力。与此同时，随着云原生社区可观测性项目 OpenTracing 的崛起，大约不到半年时间我们逐步下线了 CAT，向 OpenTracing 生态演进。三、 0x02 第二阶段持续创造基于OpenTracing全链路采样监控 OpenTracing 为全链路追踪 Trace 定制了完整的一套协议标准，本身并不提供实现细节。在 OpenTracing 协议中...阅读全文

博文 2022-12-10 06:50:41 中文开源技术交流社区

阅读:243次评论:0条 0人喜欢

Kubernetes常用命令大全(持续更新)

,services -l name=myLabel #### 删除具有 name=myLabel 标签的 pod 和 serivce kubectl delete pods,services -l name=myLabel --include-uninitialized #### 删除具有 name=myLabel 标签的 pod 和 service，包括尚未初始化的 kubectl -n my-ns delete po,svc --all #### 删除 my-ns namespace下的所有 pod 和 serivce，包括尚未初始化的 kubectl delete pods prometheus-7fcfcb9f89-qkkf7 --grace-period=0 --force 强制删除交互...阅读全文

博文 2020-03-13 12:35:13 debian.cn

阅读:3193次评论:0条 0人喜欢

最全的 DevOps 工具集合

就会使用管理员定义的策略。 Kubernetes 架构（灰色部分是容器，彩色部分是 pods），©GoogleInc. 监控和记录工具监控和记录工具主要是为了在发生故障时快速响应，快速恢复，同时减少事故期间的人员参与。目前业内比较常用的监控和记录工具包括 ELK Stack、Datadog、New Relic、Prometheus、Zipkin 和 Azure Monitor。 ELK Stack ELK Stack 是三个开源产品的集合——它们分别是 Elasticsearch、Logstash 和 Kibana。它们都是由 Elastic 公司开发、管理和维护的。 E 代表 ElasticSearch，用于存储日志 L 代表 Logstash，用于传输、处理和存储日志 K 代表...阅读全文

博文 2021-05-26 14:35:21 博客园

阅读:686次评论:0条 0人喜欢

译：Kubernetes 最佳实践

览我之前翻译的Kubernetes 的自动伸缩你用对了吗？；HPA 除了可以基于 CPU 指标伸缩，还可以基于内存，或者自定义指标，可以浏览Kubernetes HPA 基于 Prometheus 自定义指标的可控弹性伸缩。使用资源请求和约束应设置资源请求和约束（可在容器中使用的最小和最大资源量）以避免容器在未分配所需资源的情况下启动，或集群用尽可用资源。在没有限制的情况下，Pod 可以使用比所需更多的资源，从而导致可用资源总量减少，这可能会导致集群上的其他应用程序出现问题。节点可能会崩溃，并且调度程序可能无法正确调度新的 pod。如果没有请求，无法为应用程序分配足够的资源，它可能会在尝试启动或执行异常时失败。资源请求和限制以毫核和兆字节为单位定义可用的 CPU 和内存。请注意，如果进程超出...阅读全文

博文 2022-09-13 19:32:21 atbug.com

阅读:330次评论:0条 0人喜欢

Docker 17.06 社区版发布

的支持。可以将docker的/metrics端点暴露给插件： $ docker plugin install --grant-all-permissions cpuguy83/docker-metrics-plugin-test:latest $ curl http://127.0.0.1:19393/metrics 这个插件仅用于示范。它在主机的网络上运行了一个反向代理，能将请求转发给插件中的本地的指标套接字。在真实场景中，可能会将收集的指标数据发送给外部的服务，或者使它可以被一个服务如Prometheus访问并收集。注意尽管指标插件在非实验性的daemon中可以使用，指标标签（metrics label）仍应该被看作是实验性的，可能在Docker未来的版本中发生改动。日志驱动插件添...阅读全文

博文 2017-06-30 23:08:57 debian.cn

阅读:485次评论:0条 0人喜欢

Ceph 12.2.0 正式版本发布，代号 Luminous

。 ceph-mgr还包括一个Prometheus插件。 ceph-mgr现在有一个Zabbix插件。使用zabbix_sender，它可以将集群故障事件发送到Zabbix Server主机。这样可以方便地监视Ceph群集的状态，并在发生故障时发送通知。集群的总体可扩展性有所提高。我们已经成功测试了多达10,000个OSD的集群。目前，每个OSD都具有与其相关联的设备类（例如，hdd或ssd），允许CRUSH规则将数据简单地映射到系统中的设备的子集。通常不需要手动编写CRUSH规则或手动编辑CRUSH。可以优化CRUSH权重，以保持OSD之间数据的近乎完美的分布。还有一个新的upmap异常处理机制，允许单个PG移动以实现完美的分发（这需要客户端）。每个OSD目前可以根据后端设备是HDD还是...阅读全文

博文 2017-08-31 13:36:49 debian.cn

阅读:515次评论:0条 0人喜欢

分布式运行时 Dapr 知多少

/actors///reminders/ 6. Observability（遥测） Dapr记录指标，日志，链路以调试和监视Dapr和用户应用的运行状况。 Dapr支持分布式跟踪，其使用W3C跟踪上下文标准和开放式遥测技术，可以轻松地诊断在生产环境中服务间的网络调用，并发送到不同的监视工具，如Prometheus。 7. Secrets（安全） Dapr 提供了Secret管理，不过不同于K8S中的Secret，其支持与公有云和本地的Secret存储集成，以供应用检索使用。 What Can We Do With Dapr 了解了Dapr是什么，以及其提供的特性，那Dapr的应用场景就一目了然了。也就是官网首页的Slogan：Simplify...阅读全文

博文 2021-03-09 10:39:05 diablo4

阅读:462次评论:0条 0人喜欢

7大维度看国外企业为啥选择gRPC打造高性能微服务

能捕获更多的bug。使用Checkstyle作为Java代码，并且把它用作类似于protobuf的文件。自定义拦截器可以提供跟踪，日志记录和错误监视功能。我们希望开源我们的Bugsnag gRPC拦截器，以自动捕获并向Bugsnag报告错误。gRPC的增长和采用在过去几年中，gRPC的普及度大幅增长，Square，Lyft，Netflix，Docker，Cisco和CoreOS等公司大规模采用。Netflix Ribbon是基于RPC调用使用REST的微服务通信框架的事实标准。今年，他们宣布，由于其多语言支持和更好的可扩展性/可组合性，他们正在向gRPC过渡。该框架最近也于2017年3月加入了CNCF基金会，支持重量级的Kubernetes和Prometheus。gRPC社区非常活跃，与开...阅读全文

博文 2018-03-19 17:51:32 debian.cn

阅读:356次评论:0条 0人喜欢

kubectl 创建 Pod 背后到底发生了什么？—探寻 Kubectl 创建 Pod 的原理

开始同步 Pod 列表。我们来详细分析一下同步过程：如果 Pod 正在创建， Kubelet 就会记录一些在 Prometheus 中用于追踪 Pod 启动延时的指标。然后生成一个 PodStatus 对象，它表示 Pod 当前阶段的状态。Pod 的状态(Phase) 是 Pod 在其生命周期中的最精简的概要，包括 Pending，Running，Succeeded，Failed 和 Unkown 这几个值。状态的产生过程非常过程，所以很有必要深入了解一下背后的原理：首先串行执行一系列 Pod 同步处理器（PodSyncHandlers），每个处理器检查检查 Pod 是否应该运行在该节点上。当所有的处理器都认为该 Pod 不应该运行在该节点上，则 Pod 的 Phase 值就会变成...阅读全文

博文 2022-04-18 16:18:04 CSDN

阅读:368次评论:0条 0人喜欢

最新评论