InfraPub 为您找到相关结果 44

项目总结报告应该怎么写

。总结报告的形成明确写报告需要的思维和目的后,我们如何形成报告呢?报告形成步骤如下。​1.明确项目分析维度项目分析的维度不同,后期确定的也会不同。一般以项目总结的目的为基准方向,确定分析维度。分析维度可以从产品立项到发布每个阶段作为分析维度,也可以按照项目中的角色为维度进行分析。以输入法的项目总结为例,按照产品、开发、测试的测试角色为横向维度进行分析,然后纵向深入分析每个维度的数据。​2.项目抽取我们在进行抽取时,会先根据项目分析维度形成一个集,如下图。​的选取方式有两种:根据问题选取和固定通用。根据问题选是先收集项目中明确感知到的问题,对问题进行归类(归类分组思想),然后选取可以反映此问题的进行数据分析,一个问题可能对应多个。以输入法为例,当前版本出现...阅读全文

Golang 应用集成 Prometheus 统计数据支持

基本概念 Prometheus 所有采集的监控数据均以(metric)的形式保存在内置的时间序列数据库当中(TSDB):属于同一名称,同一标签集合的、有时间戳标记的数据流。除了存储的时间序列,Prometheus 还可以根据查询请求产生临时的、衍生的时间序列作为返回结果。 样本在时间序列中的每一个点称为一个样本(sample),样本由以下三部分组成: (metric):名称和描述当前样本特征的 labelsets; 时间戳(timestamp):一个精确到毫秒的时间戳; 样本值(value): 一个 folat64 的浮点型数据表示当前样本的值。 {

博文 2022-11-24 10:33:09 CSDN博客

通过Prometheus查询K8S集群Pod 的CPU、内存、网络指标

Kubernetes的kubelet组件内置了cadvisor,将Node上容器的以Prometheus支持的格式展示,可以通过这些计算得到更多有用的数据。 Kubelet的Cadvisor获取 在Prometheus的配置文件中,配置了相关的Target之后,这些就可以从Prometheus中查询到。 - job_name: 'kubernetes-cadvisor' scheme: https tls_config: ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount...阅读全文

博文 2020-08-13 20:41:03 debian.cn

Cortex: 高可用和水平扩展Prometheus监控系统

Prometheus已成为cloud-native世界中的默认监控应用程序和系统。对于真是使用案例,Prometheus应该是高可用的,这是有挑战的。一旦在高可用性模式下运行Prometheus,就会遇到很多问题,例如数据重复,为重复数据实现single pane等。为了解决此问题,Cortex诞生了。Cortex是一个CNCF sandbox project,旨在为使用Prometheus 收集的提供长期存储和全局视图。首先让我们看一下Cortex的主要目标,然后看一下它为Prometheus解决的一些问题。水平可伸缩性– Cortex可以分成多个微服务,每个微服务都可以独立地水平伸缩。例如,如果许多Prometheus实例正在向Cortex发送数据,则可以扩展Ingester微...阅读全文

博文 2021-10-09 17:00:22 知乎

深度解密基于 eBPF 的 Kubernetes 问题排查全景图

地实现了进程监测这样的需求。所以,eBPF 可编程的执行引擎非常适合用来将增强可观测性,将丰富的内核数据采集上来,通过关联业务应用,方便问题排查。​三、从监测系统到可观测性随着云原生浪潮,可观测性概念正深入人心。但仍离不开日志、、链路这三类可观测领域的数据基石。做过运维或 SRE 的同学经常遇到这样的问题:半夜被拉到应急群里,披头盖地地被质问为什么数据库不工作了,在没有上下文的情况下,无法立刻抓住问题核心。我们认为好的可观测性平台应该帮助用户很好地反馈上下文,就像 Datadog 的 CEO 说的那样:监测工具不是功能越多功能越好,而是要思考怎样在不同团队和成员之间架起桥梁,尽可能把信息放在同一个页面中(to bridge the gap between the teams and...阅读全文

博文 2022-03-21 09:11:51 joseph

得物云原生全链路追踪Trace2.0-采集篇 - OSCHINA

地化工作也是做得非常到位,而凭借着架构简单,开箱即用的特点,CAT 也是我们得物使用的第一个应用监控系统。 二、 0x01 第一阶段 从0~1基于CAT的实时应用监控 在得物五彩石项目交付之前,系统仅有基础设施层面的监控,CAT 的引入,很好地弥补了应用监控盲区。它支持提供各个维度的性能监控报表,健康状况检测,异常统计,对故障问题排查起到了积极推动的作用,同时也提供简单的实时告警的能力。 CAT 拥有分钟级别的聚合统计的能力,从 UI 上不难看出,它拥有丰富的报表统计能力和问题排障能力。 但随着公司业务规模逐步扩大,微服务粒度也不可避免地变小,我们发现,CAT 已经逐步无法满足我们的使用场景了: 无法直观呈现全链路视图: 问题排障与日常性能分析的场景也越来越复杂,对于一个核心场景,其内部...阅读全文

博文 2022-12-10 06:50:41 中文开源技术交流社区

Docker 17.06 社区版发布

/static COPY --from=storefront /usr/src/atsea/app/react-app/build/ . WORKDIR /app COPY --from=appserver /usr/src/atsea/target/AtSea-0.0.1-SNAPSHOT.jar . ENTRYPOINT ["java", "-jar", "/app/AtSea-0.0.1-SNAPSHOT.jar"] CMD ["--spring.profiles.active=postgres"] 最终的镜像大小只有209M,其中不包含Maven或node.js。 还有其他的一些构建器方面的优化,包括在FROM指令中使用构建时参数。 日志和 目前通过一个daemon的API端点提供日志...阅读全文

博文 2017-06-30 23:08:57 debian.cn

Grafana 6.4.4 发布,系统指标监控与分析平台

Grafana 6.4.4 发布了,Grafana 是一个功能丰富的标准仪表板和图形编辑器,用于分析和监控 Graphite、Elasticsearch、OpenTSDB、Prometheus 和 InfluxDB。 新版本更新说明如下: Bug Fixes DataLinks:修复模糊问题 #19883Docker:使解析 Docker 镜像中的时区成为可能 #20081LDAP:即使其中一个返回连接错误,也应尝试所有 LDAP 服务器 #20077LDAP:不再根据调试页面中的角色显示不正确匹配的组 #20018Singlestat:修复无数据/空值映射 #19951 详细更新说明:https://github.com/grafana/grafana/releases/tag...阅读全文

博文 2019-11-09 08:48:39 debian.cn

单核心 IOPS 突破 1000 万,Linux 5.16 有望大幅提升 I/O 性能

Linux block 子系统的负责人 Jens Axboe 目前就职于 Facebook,他也因开发了 IO_uring 而闻名,他对 IO_uring 的不断开发与优化使得 Linux 系统的 I/O 性能得到巨大提升。一周前,Jens Axboe 开始对内核的 I/O 性能进行了新一轮的优化,以便在单个 CPU 核心上获得 800 万 IOPS。经过一周时间的努力,每个核心能够实现 890 万左右的 IOPS,就当大家以为这个数字已经达到他所使用的硬件极限,没有更多优化空间时,本周他又成功地将每个核心的 IOPS 推到了 1000 万。IOPS(Input/Output Operations Per Second)是一个衡量电脑储存装置(如 HDD、SSD)输入/输出性能高低的...阅读全文

博文 2021-10-27 10:32:50 joseph

监控Kubernetes集群证书过期时间的三种方案 - OSCHINA

用 kube-prometheus-stack 通过 apiserver 和 kubelet 组件监控获取相关证书过期时间; 使用 enix 的 x509-certificate-exporter监控集群所有node的 /etc/kubernetes/pki 和 /var/lib/kubelet 下的证书以及 kubeconfig 文件 方案一: Blackbox Exporter 监控 Kubernetes apiserver 证书过期时间 Blackbox Exporter 用于探测 HTTPS、HTTP、TCP、DNS、ICMP 和 grpc 等 Endpoint。在你定义 Endpoint 后,Blackbox Exporter 会生成,可以使用 Grafana 等工具进行可视化...阅读全文

博文 2022-12-10 06:49:43 中文开源技术交流社区

Grafana 6.3.3发布 系统指标监控与分析平台

Grafana 6.3.3 发布了,Grafana 是一个功能丰富的标准仪表板和图形编辑器,用于分析和监控 Graphite、Elasticsearch、OpenTSDB、Prometheus 和 InfluxDB。 新版本更新主要是 Bug修复,具体如下: Annotations:修复取消时间序列查询时,失败的注释查询 #18532Auth:如果 cookie_samesite 为 none,请不要设置 SameSite cookie 属性 #18462DataLinks:正确地将范围变量应用于数据链接 #18454DataLinks:在图形上下文菜单中显示数据点的时间戳时,遵守时区 #18461DataLinks:插值变量时,正确使用数据点时间戳 #18459Explore:修复空...阅读全文

博文 2019-08-17 21:20:29 debian.cn

Grafana v6.0.0 发布,数据展示与分析平台

Grafana v6.0.0 正式版发布了。Grafana 是一个功能丰富的标准仪表板和图形编辑器,用于分析和监控 Graphite、Elasticsearch、OpenTSDB、Prometheus 和 InfluxDB。 新版是 Bug 修复版本,更新内容如下: Stackdriver: fix for float64 bounds for distribution metrics #14509Stackdriver: no reducers available for distribution type #15179Dashboard: fixes click after scroll in series override menu #15621MySQL: fix mysql...阅读全文

博文 2019-02-26 12:52:16 debian.cn

Facebook 开源的一组 Linux 内核组件与工具

题。 Cgroup2:https://facebookmicrosites.github.io/cgroup2/ Cgroup2 是下一代 Linux 内核机制,用于分组和构造工作负载,以及控制分配给每个组的系统资源量。它具有内存、I/O、中央处理单元等控制器,它还允许隔离工作负载,并为每个工作负载确定资源分配的优先级和配置。 PSI:https://facebookmicrosites.github.io/psi/ PSI(Pressure Stall Information,压力失速信息)首次提供了一种规范,通过内存、CPU 和 I/O 这三种主要资源的新压力来量化资源短缺。这些压力与此次开源的其它内核和用户空间工具相结合,可以在智能开发和响应时检测资源短缺。PSI 统计数据为即...阅读全文

博文 2018-11-24 09:27:14 debian.cn

Kafka 3.3 使用 KRaft 共识协议替代 ZooKeeper

控制器故障转移接近瞬时。Kafka 社区计划在下一个版本(3.4)中弃用 ZooKeeper,然后在 4.0 版本中完全删除它。此外,Kafka 3.3 还提供了其他一些新特性,比如添加了与元数据日志处理错误相关的,允许用户为其他用户创建委托令牌,以及严格统一的粘性分区器,以缩短分区时间。对于 Kafka Streams,这个版本增加了源/接收器,如消费/生产吞吐量、暂停/恢复拓扑,并集成了 KStream transform()和 process()方法。Kafka Connect 增加了对源连接器的精确一次语义支持。原文链接: https://www.infoq.com/news/2022/10/apache-kafka-kraft/...阅读全文

GitLab 11.5 正式版发布 大量安全新功能

的关键操作的摘要。这包括自上次部署以来的时间、最近的提交以及是否存在其他任何活动警报。 对 GitLab Pages 的访问控制权限 11.5 版本引入了一项出色的新功能,可以对 Pages 进行访问控制。现在,可以使用 Pages 来构建和发布只能由项目成员访问的受保护内容,以易于访问的方式自动发布操作文档、内部机密甚至私人计划或其他信息,同时确保只有特定的人才能访问。 详情请查看发布公告:https://about.gitlab.com/2018/11/22/gitlab-11-5-released/...阅读全文

博文 2018-11-23 10:08:31 debian.cn

Prometheus 2.13.0 发布

] Service discovery:为 kubernetes 添加新的节点地址类型 #5902[ENHANCEMENT] UI:如果查询返回了一些警告,则显示警告 #5964[ENHANCEMENT] Remote write:减少系列缓存的内存使用量 #5849[ENHANCEMENT] Remote read:使用远程读取流传输以减少内存使用量 #5703[ENHANCEMENT] Metrics:添加了将远程最大/最小/所需分片写入队列管理器的 #5787[ENHANCEMENT] Promtool:在标签查询期间显示警告 #5924[ENHANCEMENT] Promtool:改进了解析错误规则时的错误消息 #5965[ENHANCEMENT] Promtool:更多提示规则 #5515...阅读全文

Debian 将支持从 F2FS 根文件系统进行系统引导

引导 Debian 的另一部分难题是添加 F2FS 支持以作为 initramfs 的自动添加基础模块。 对此,Debian 开发者 Romain Perier 正在努力使其适配 Debian 并从 F2FS 根文件系统进行的引导能正常运行。对于像 Ubuntu 这样的下游发行版来说,这也是一个好消息,因为它们最终也会引入这些变化。如果其他 Linux 发行版看到 F2FS 取得不错的性能后也能开始效仿,这也不失为好消息。由于 F2FS 拥有来自 Google 及其合作伙伴的投资,相对来说它也比较可靠。...阅读全文

博文 2020-01-13 13:36:55 debian.cn

Go 1.16 发布,支持 macOS ARM64

/mips64)上支持 MIPS64 体系架构,但尚不支持 cgo - 放弃了对 x87 模式编译(GO386=387)的支持。现在可以使用软浮点模式(GO386=softfloat)来支持非 SSE2 处理器 - linux/riscv64 现在支持 cgo 和 -buildmode=pie - GO111MODULE 环境变量现在默认为 on。可通过将 GO111MODULE 设置为 auto 切换回旧行为 - go 命令现在支持使用新的 //go:embed 指令来将静态文件和文件树作为最终可执行文件的一部分包含在内 - 新的 runtime/metrics 包引入了一个稳定的接口,用于从 Go 运行时中读取实现定义的 - 现在将 GODEBUG 环境变量设置为 inittrace=1 会导致...阅读全文

博文 2021-02-17 08:58:12 joseph

Prometheus 常用 PromQL 语句样例

PromQL 是 Prometheus 提供的一个函数式的表达式语言,可以使用户实时地查找和聚合时间序列数据。表达式计算结果可以在图表中展示,也可以在 Prometheus表达式浏览器中以表格形式展示,或者作为数据源,以 HTTP API 的方式提供给外部系统使用。PromQL 虽然以 QL 结尾,但是它不是类似 SQL 的语言,因为在时间序列上执行计算类型时,SQL 语言相对缺乏表达能力。而 PromQL 语言表达能力非常丰富,可以使用标签进行任意聚合,还可以使用标签将不同的标签连接到一起进行算术运算操作。内置了时间和数学等很多函数可以使用 选择序列选择指定名称的序列最新样本: my_metric_name选择指定名称序列5分钟的样本范围: my_metric_name[5m]筛...阅读全文

博文 2021-02-09 11:07:15 51CTO博客

AMD Ryzen 7 2700X/5 2600跑分曝光 性能提升明显

的是Ryzen 5 1600X、Core i7-6700K——不知道为何扯上六代酷睿旗舰,这里就不管它了,重点对比两代Ryzen。 很明显,Ryzen二代的提升是全方位的,几乎每一项都有明显进步,缓存、内存延迟也果然有降低,内部传输性能和延迟同样更好。 SiSoftware的总结评价很干脆:“Ryzen二代是一次很给力的更新,绝对不会让用户失望,很可能会继续提高AMD的市场份额。AMD继续战斗!”...阅读全文

博文 2018-03-21 08:47:43 debian.cn

中国投资130亿元量产相变内存 比闪存快1000倍

入运营阶段。这个项目2017年11月份完成了厂房封顶,并完成了设备采购,从开工到封顶不到9个月时间,今年3月底开始运营。 根据之前的消息,江苏淮安的这个项目总投资130亿元,一期投资43亿元,建成后将年产10万片12英寸PCM相变存储芯片。相变存储芯片被成为21世纪的存储芯片标准,与传统存储芯片(比如内存)相比,它是一种非易失性存储芯片,但是速度达到了传统存储芯片的1000倍,同时可靠性是后者的1000倍——当然这些都是理论上的。 目前量产的PCM存储芯片并没有这么强,Intel的3D XPoint闪存据说就是一种PCM存储芯片,只不过一直没有被证实,而它宣传的特点就是性能是闪存的1000倍,可靠性也是闪存的1000倍,同时容量密度是闪存的10倍。...阅读全文

博文 2018-04-10 22:34:58 debian.cn

25万次P/E循环 超级长寿的SLC SSD诞生

EnduroSLC闪存芯片,从名字上就可以看出强调超长寿命,P/E循环可选5万次、10万次、25万次三种规格(QLC才不过1000-1500次左右),搭配无缓存主控支持增强型掉电保护,性能也是上一代的四倍,而且可耐受-40℃到85℃的极端温度。 该硬盘采用BGA整合封装的单芯片方案,集成主控和闪存,145-ball封装,尺寸仅14×24mm,容量不大2GB-128GB,系统通道是SATA 6Gbps,支持NCQ。 具体读写速度没有公布,但是对于这种产品来说,能跑多快反而是次要的。 Greenliant表示,NANDDrive EX系列已经开始向客户送样,计划今年第四季度量产,同时还会推出基于3D MLC闪存的NANDDrive MX系列,也是SATA 6Gbps,今年第四季度初出样,年底量产。...阅读全文

博文 2019-08-07 23:13:00 debian.cn

Kubernetes常用命令大全(持续更新)

kubectl attach nginx-pod -i #### 连接到运行中的容器 kubectl port-forward nginx-pod 5000:6000 #### 转发 pod 中的 6000 端口到本地的 5000 端口 kubectl exec nginx-pod -- ls / #### 在已存在的容器中执行命令(只有一个容器的情况下) kubectl exec nginx-pod -c my-container -- ls / #### 在已存在的容器中执行命令(pod 中有多个容器的情况下) kubectl top pod POD_NAME --containers #### 显示指定 pod和容器的度量 调度配置 kubectl cordon k8s-node #### 标...阅读全文

博文 2020-03-13 12:35:13 debian.cn

在 Kubernetes 上扩展 TensorFlow 模型

/workloads/controllers/deployment/#scaling-a-deployment)。 - 使用[Pod 水平自动伸缩](https://kubernetes.io/docs/tasks/run-application/horizontal-pod-autoscale/)(Horizontal Pod Autoscaler)进行自动扩展,它基于一组计算(CPU、GPU、内存)或用户定义的(如每秒请求)。 - 通过 TFJob 和 MPI Operator 对 TensorFlow 模型进行分布式训练。 - 使用 KFServing、Seldon Core 和 BentoML 扩展已部署的 TensorFlow 模型。 接下来,我将提供一些例子,说明如何使用这些解决方案中的一...阅读全文

如何写好技术文档 — 来自十多年的文档经验总结

齐全的API都是设计良好的API,虽然这个感觉并不完全正确,但这两者确实是强相关的,所以在很多人眼里,文档的完善度也成为衡量一个产品专业度的。 - 避免被重复的问题打扰: 有些问题你只需要写在文档里,这样有人来问你的时候你就可以让他直接去看文档了,而不是又给他解释一遍。 ## 为什么大多数人都不喜欢写文档?## 关于文档的重要性,每个技术人或多或少都知道一些,但很多人还是没有写文档的习惯,为什么? 除了上文中提到的文档的收益滞后性外,还有以下几点原因: - 很多工程师习惯将写代码和写作割裂开,不仅仅是在工作上,而且在思想上就认为它们是完全不相关的两项工作,这就导致好多人重代码不重文档。 - 也有很多工程师认为自己不善写作,索性就不写了。 这实际是个偷懒的借口,写文档不需要华丽的辞藻、生动...阅读全文

博文 2021-07-30 16:15:13 joseph

译:Kubernetes 最佳实践

览我之前翻译的Kubernetes 的自动伸缩你用对了吗?;HPA 除了可以基于 CPU 伸缩,还可以基于内存,或者自定义,可以浏览Kubernetes HPA 基于 Prometheus 自定义的可控弹性伸缩。使用资源请求和约束应设置资源请求和约束(可在容器中使用的最小和最大资源量)以避免容器在未分配所需资源的情况下启动,或集群用尽可用资源。在没有限制的情况下,Pod 可以使用比所需更多的资源,从而导致可用资源总量减少,这可能会导致集群上的其他应用程序出现问题。节点可能会崩溃,并且调度程序可能无法正确调度新的 pod。如果没有请求,无法为应用程序分配足够的资源,它可能会在尝试启动或执行异常时失败。资源请求和限制以毫核和兆字节为单位定义可用的 CPU 和内存。请注意,如果进程超出...阅读全文

博文 2022-09-13 19:32:21 atbug.com

在TKE上使用Kubecost进行成本管理

. **Infrastructure health**:集群基础架构状态评分,比较像我们的集群巡检,给出一些优化建议,例如: - Worker nodes 跨可用区部署。 - Master 多副本。 - 检测 CPU 被 throttling 的 Pod。 ### Cost Allocation ![img](https://main.qcloudimg.com/raw/b9469008a0b87974c3796657ff505efd.png) **上述图中数字序号标示处相关说明可参考下文对应说明介绍**: 1. **显示的**: - 累积成本:在选定时间窗口的实际/历史支出。 - 费率:每小时、每天或每月的成本,基于所选时间窗口中的样本,也用于预计成本。 2. **聚合**: Cost Allocation 可以查...阅读全文

Apache Kafka发布 3.0 正式版

方法接受Instant数据类型的参数。此更改将影响需要实现新方法的任何自定义只读交互式查询会话存储实现。KIP-622:添加currentSystemTimeMs和currentStreamTimeMs到ProcessorContext该ProcessorContext增加在3.0两个新的方法,currentSystemTimeMs和currentStreamTimeMs。新方法使用户能够分别查询缓存的系统时间和流时间,并且可以在生产和测试代码中以统一的方式使用它们。KIP-743:删除0.10.0-2.4Streams 内置版本配置的配置值3.0 中取消了对 Streams 中内置的旧结构的支持。KIP-743正在0.10.0-2.4从配置属性中删除该值...阅读全文

博文 2021-09-26 14:13:03 joseph

Kubernetes 1.7 发布,安全强化、StatefulSet 更新及可扩展特性

三方的API。例如,其中添加了兼容Open Service Broker API的孵化特性service-catalog。与之相关的是,第三方资源(TPR,Third Party Resource)已经替代了用户资源定义(CRD,Custom Resource Definitions)。TPR提供了更整洁的API,并解决了在TPR Beta版期间出现的问题和极端案例。对此,CoreOS发布了一个博客帖子,其中提供了差异的更多细节信息,并给出了一个创建CRD的走查过程。社区已规划在Kubernetes 1.8中移除TPR Beta版特性。容器运行时接口(CRI,Container Runtime Interface)实现从运行时中获取容器的度量,它已使用新的RPC调用得以改进。CRI的验证...阅读全文

博文 2017-07-19 12:23:15 debian.cn

C++ 夺冠!成为 TIOBE 2022 年度编程语言

, OpenEdge ABL, PL/I, Pony, Processing, Programming Without Coding Technology, Q, Racket, Raku, Ring, S, Solidity, SPARK, Tcl, VBScript, VHDL, X++, Zig Top 10 编程语言 TIOBE 指数走势(2002-2023) 历史排名(1987-2023) 注:以下排名位次取决于 12 个月的平均值。 编程语言“名人榜”(2003-2022) 【说明】: TIOBE 编程语言社区排行榜是编程语言流行趋势的一个,每月更新,这份排行榜排名基于全球技术工程师、课程和第三方供应商的数量,其中包括了流行的搜索引擎以及技术社区,如 Google、百度、维基百科、CSDN、必...阅读全文

博文 2023-01-10 06:42:12 CSDN博客

Kubernetes 1.7:安全加固、有状态应用更新等

,每一个节点上创建一个 Pod 已经有了一个更新特性,在1.7中添加了更加机智的回滚和历史回溯能力。 一个新的 StorageOS 卷插件能从本地的和连接的节点存储中提供高可用的、集群范围的持久性卷。 可扩展性: 运行时的 API 聚合是这次发布中最强大的特性,可以让高级用户向集群中添加预先构建的、第三方的或者用户自制的具有Kubernetes风格的API。 容器运行时接口(CRI)通过新的从运行时获取容器的 RPC 调用得到增强。CRI 的验证测试已经发布,和containerd 1.0的整合处于 alpha 状态,现在支持基本的 Pod 生命周期和镜像管理。可以阅读我们之前深入介绍 CRI 的文章。 其他特性: 引入了对于外部的准入控制器的支持,现在处于 alpha 状态,提供了两种选...阅读全文

博文 2021-01-28 17:50:35 debian.cn

最全的 DevOps 工具集合

Kibana,是一种可视化工具(Web 界面) Datadog Datadog 是针对云规模应用程序的监视服务,可通过基于 SaaS 的数据分析平台来监视服务器、数据库、工具和服务。 Datadog Application Performance Monitoring(APM 或跟踪)可与你的日志和基础架构监视器并用,提供自动生成的仪表板(用于监视关键,如请求量和延迟)乃至单个请求的跟踪细节,帮助你深入了解应用程序的性能表现。 应用程序收到请求时,Datadog 可以在整个分布式系统上查看跟踪,并向你显示关于该请求状况的详细系统数据。 New Relic New Relic 是一家位于加州旧金山的技术公司,致力于开发基于云的软件,以帮助网站和应用程序所有者跟踪服务性能。 New Relic 开发的...阅读全文

博文 2021-05-26 14:35:21 博客园

7大维度看国外企业为啥选择gRPC打造高性能微服务

架来兼容这种环境。 开发工具 - 在实现框架时,提供尽可能小的摩擦将会使开发人员更快捷。哪些工具可以帮助编码,本地测试端点,以及单元和集成测试的stubbing/mocking?当事情出错时,我们需要能够看到包括内容在内的请求信息。消息格式等因素也可以使调试更容易依赖于工具,例如JSON消息是人可读的,但是二进制消息将需要额外的努力来解码。 成熟度和采用 - 对于初创公司来说,资源是有限的,需要花费在公司的核心业务上,而不是修复,测试和增强第三方框架。诸如框架的普及,大规模使用的例子,社区的活跃程度以及框架本身的成熟度等因素都是稳定性的良好。需要强调的是,选择一个解决具体问题的框架,而并非选择最新最热的。 多平台支持 - 在真正的微服务思维中,使用最适合其目的的语言编写企业的服务,目前包...阅读全文

博文 2018-03-19 17:51:32 debian.cn

Spinnaker 介绍 – Netflix 的持续交付平台

。每个服务都将自己的运行推送到 Atlas 中,用于绘制仪表盘和报警。Atlas 是Netflix的一个内存时间序列数据库。每个服务都将自己的日志发送到 ELK 集群中。每个内部服务除了deck 和 gate 必须用 mutual TLS,并且证书和认证通过 Lemur 进行管理。不允许任何外部流量进入内部服务中。所有的 API 调用必须经过 gate。每个外部服务(除了gate)都要支持 mTLS 或者 SSO。如果某个服务有数据存储的需求,那么只能存在自己的数据库中,服务之间不共享数据存储。 为了保证兼容性,Spinnaker 在开发过程中还会准守一些准则: 保证足够的单元测试和覆盖率。在 code review 的时候特别注意是否会破坏API兼容性。7×24 不间断的执行集成测试。有...阅读全文

博文 2018-12-21 19:30:47 debian.cn

Sam Altman的成功学|OneFlow

样,比如说资本、技术、品牌、网络效应和做管理。 专注于将你所定义的成功增加十倍是有用的,这些可以是赚钱、社会地位、世界级影响力或者其他东西。我乐意接受挑战,愿意在各种项目上花时间以解锁下一个项目。但是我希望在每一个项目上都能取得最大成就,创造职业生涯新高度。 但是大多数人都被困于线性发展的泥潭,往往捡了芝麻丢了西瓜,我们要学会抓大放小,寻求跳跃式提升。 在我看来,无论是企业还是个人,最大的竞争优势就是要把目光放长远。我们要打开眼界,看出世界上不同体系之间交融互动的方式。复合增长最重要的就是眼光要尽可能放长远,这样的人才能抢占市场先机,获得最大回报。 要相信指数曲线,耐心坚持下去,最后一定会有惊喜。 2 要有绝对自信 自信拥有不可思议的力量,就我认识的人来说,最成功的往往都是那些自信到...阅读全文

阿里巴巴版 JDK 首发 GA 版 生产环境可用

增强和安全修复,主要针对的场景是数据中心大规模 Java 应用部署情况下,Java 应用稳定性、效率以及性能的优化与提高。从目前公开的功能和披露的规划上来看,Dragonwell 8 具有下述三大重要特性: JwarmUp JwarmUp 是为了解决双十一抢购场景下,阿里巴巴 Java 系统 warmup 的痛点。以普通的 Java 应用举例,JVM 需要经过解释执行 (interpreter) 找到热点,然后通过 JIT 编译器来加速热点方法的运行。对于高并发场景,应用启动之后会有很长时间处于寻找热点、编译热点的状态。这时,很多性能 (CPU 使用率、TPS 吞吐量、 RT 响应时间) 不是非常理想。换句话说,当 Java 应用启动并提供服务之后,在相当长的时间内处于 warmup 状...阅读全文

博文 2019-07-11 10:24:52 debian.cn

Kubernetes源码探疑:Pod IP泄露排查及解决方法

对于云主机与云主机之间,只有轻微差异(小包场景下,pps 会有 3~5% 损耗),而且Pod网络性能各项(吞吐量,包量,延迟等)不会随着节点规模增大而削减。而Flannel UDP,VXLan模式和Calico IPIP的模式存在明显的性能消耗。Pod能直通公有云和物理云。对于使用公有云和物理云的用户而言,业务上K8S少了一层障碍,多了一份便利。而Flannel的host gw模式下,容器无法访问公有云和物理云主机。 而CNI的工作流程如下所示。 创建Pod网络过程: 删除Pod网络过程: Pod IP 消失问题的排查与解决 为了测试CNI插件的稳定性,测试同学在UK8S上部署了一个CronJob,每分钟运行一个Job任务,一天要运行1440个任务。该CronJob定义如下...阅读全文

Golang 操作 Kafka 样例

)、consumer(消息消费者)都可以是分布式的。 在消息的生产时可以使用一个标识topic来区分,且可以进行分区;每一个分区都是一个顺序的、不可变的消息队列, 并且可以持续的添加。 同时为发布和订阅提供高吞吐量。据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB)。 消息被处理的状态是在consumer端维护,而不是由server端维护。当失败时能自动平衡 1.1.3. 常用的场景 监控:主机通过Kafka发送与系统和应用程序健康相关的,然后这些信息会被收集和处理从而创建监控仪表盘并发送警告。 消息队列: 应用程度使用Kafka作为传统的消息系统实现标准的队列和消息的发布—订阅,例如搜索和内容提要(Content Feed)。比起大多数的消息系统来说,Kafka...阅读全文

博文 2023-01-10 13:46:09 掘金

DPDK Graph Pipeline 框架简介与实现原理

DPDK 全称为 Data Plane Development Kit ,是近年来在高速网络通信行业中炙手可热的一种网络报文处理加速框架。DPDK 从十年前诞生直至发展到今天已经可以支持业界主流的高端网卡以及各类加速硬件设备,同时也支持主流的各个CPU 体系结构(可以运行于 X86, Arm, Power 等平台)。同时也可以运行于 Linux/FreeBsd/Windows 等主流操作系统之上。DPDK因为其优异的性能被广泛的应用于网关/负载均衡/SDN/虚拟交换的各个场景。 本文主要介绍 DPDK 中的 libgraph 设计思想以及实现,libgraph 的设计思想源自于开源项目 Vector Packet Processor(VPP)。VPP 中的向量包处理优化方案是...阅读全文

博文 2023-02-09 07:13:55 掘金

粘合万种芯片的“万能胶” 是摩尔定律的续命丹吗? - 硬件

推动整个行业向前发展。"不过, PCIe经历了十多年的发展才成为主流,UCIe1.0的出现只是Chiplet时代真正到来的起点,距离Chiplet真正成为主流也还有一段路要走。即便是强大如英特尔,也需要花费大量的时间和精力才能实现量产。工艺实现成第一难,工程费用无人愿承担"事实上Chiplet的发展,最大的难度不是在协议制定上,而是在产品定义以及制造环节,统一协议和标准是为了降低研发成本和加快市场应用。"创享投资的投资总监刘凌韬向雷峰网(公众号:雷峰网)表示。刘宏钧持有同样的观点,他认为虽然UCIe统一标准的建立为产业界指明了方向,但在具体物理层带来的工艺能力要求和大规模制造环节仍然有不少挑战,例如封装体中多层材料的堆叠,从硅之间的堆叠到硅、有机材料、金属等多种材料。"将这些材料连接起来...阅读全文

博文 2022-04-08 07:35:46 cnBeta.COM

分布式运行时 Dapr 知多少

/actors///reminders/ 6. Observability(遥测) Dapr记录,日志,链路以调试和监视Dapr和用户应用的运行状况。 Dapr支持分布式跟踪,其使用W3C跟踪上下文标准和开放式遥测技术,可以轻松地诊断在生产环境中服务间的网络调用,并发送到不同的监视工具,如Prometheus。 7. Secrets(安全) Dapr 提供了Secret管理,不过不同于K8S中的Secret,其支持与公有云和本地的Secret存储集成,以供应用检索使用。 What Can We Do With Dapr 了解了Dapr是什么,以及其提供的特性,那Dapr的应用场景就一目了然了。也就是官网首页的Slogan:Simplify...阅读全文

influxdb内存消耗分析及性能优化【探索篇】

1.新的问题influxdb目前支持内存型索引inmem及文件型索引tsi1。之前追踪篇将influxd索引修改为tsi1之后,经过一段时间的运行,从监控观察到,由于调用方采用异步队列+批处理的方案将数据写入influxdb,会在某些时刻调用方内部出现数据堆积,如图:横坐标: 时间轴,从12-29 00:00 到 12-30 00:00纵坐标: 队列中数据堆积长度,坐标最大值250k,即最大25w个数据堆积从上图可以看到,当天监控出现数次堆积,上午7:00-10:00尤为严重。在堆积时,登录influxdb服务器,查看机器状态如下:top - 09:40:58 up 120 days, 19:18, 1 user, load average: 32.29, 32.32, 29.82...阅读全文

博文 2021-10-27 16:06:30 知乎

kubectl 创建 Pod 背后到底发生了什么?—探寻 Kubectl 创建 Pod 的原理

开始同步 Pod 列表。我们来详细分析一下同步过程: 如果 Pod 正在创建, Kubelet 就会记录一些在 Prometheus 中用于追踪 Pod 启动延时的。 然后生成一个 PodStatus 对象,它表示 Pod 当前阶段的状态。Pod 的状态(Phase) 是 Pod 在其生命周期中的最精简的概要,包括 Pending,Running,Succeeded,Failed 和 Unkown 这几个值。状态的产生过程非常过程,所以很有必要深入了解一下背后的原理: 首先串行执行一系列 Pod 同步处理器(PodSyncHandlers),每个处理器检查检查 Pod 是否应该运行在该节点上。当所有的处理器都认为该 Pod 不应该运行在该节点上,则 Pod 的 Phase 值就会变成...阅读全文

博文 2022-04-18 16:18:04 CSDN

谷歌公开了内部管理Infra层的两个工具的Paper

asset之后,我们会验证服务的健康。我们经常引入各种等待时间,以考虑诸如服务器在推送后稳定等因素。 健康检查可以包括验证运行状况,而不仅仅是更新的资产。在 Shakespeare 服务中,这可能意味着在更新数据库schema后验证前端job的运行状况。 我们在更新后监控数据来验证系统健康状态。有两种广泛使用的验证方法: 绝对值:把监控和配置的值做比较——比如,是否触发了警报,或者错误率是否高于2%。只要能确定baseline,这个方案是很稳健的。统计法:把监控和过去的值或者和受控的asset做比较。虽然这种方法往往更不精准,但它几乎不需要配置,并且可以跨许多工作。它还可以捕获超出服务维护者设想的故障模式的异常。 自动健康评估是一个广泛而复杂的主题,多年来我们学习和调整了许多微妙之处,这不在本文...阅读全文

博文 2023-01-08 11:23:20 CSDN博客