prometheus SQL汇总

网友投稿 343 2022-08-31

prometheus SQL汇总

导航:这里主要是列出一个prometheus一些系统的学习过程，最后按照章节顺序查看，由于写作该文档经历了不同时期，所以在文中有时出现的云环境不统一，但是学习具体使用方法即可，在最后的篇章，有一个完整的腾讯云的实战案例。　　1.什么是prometheus? 　　2.Prometheus安装　　3.Prometheus的Exporter详解　　4.Prometheus的PromQL 　　5.Prometheus告警处理　　6.Prometheus的集群与高可用　　7.Prometheus服务发现　　8.kube-state-metrics 和 metrics-server 　　9.监控kubernetes集群的方式　　10.prometheus operator 　　11.Prometheus实战之联邦+高可用+持久　　12.Prometheus实战之配置汇总　　13.Grafana简单用法　　14.Grafana SQL汇总　　15.prometheus SQL汇总　　参考: 　　data-id="p838747a-quCg6M7a">　　data-id="p838747a-XtCql5nR">　　data-id="p838747a-Db8a2qlr">　　data-id="p838747a-4aU3ymzY">　　sql告警规则会比较耗时，所以这里从腾讯云的云原生监控和prometheus operator中扒一些过来进行记录。（prometheus operator和云原生中的基本差不多）这里主要从腾讯云的云原生监控来获取，因为标签以及变量问题，该sql在联邦集群环境中需要调整才能使用。 1.Kubernetes节点 1.1 NodeFilesystemSpaceFillingUp ( node_filesystem_avail_bytes{job="node-exporter",fstype!=""} / node_filesystem_size_bytes{job="node-exporter",fstype!=""} * 100 < 15and predict_linear(node_filesystem_avail_bytes{job="node-exporter",fstype!=""}[6h], 46060) < 0and node_filesystem_readonly{job="node-exporter",fstype!=""} == 0) 告警内容:集群 {{ $labels.cluster }}/node {{ $labels.instance }}/设备 {{ $labels.device }} 只剩下 {{ printf "%.2f" $value }}%的可用空间 1.2 NodeFilesystemAlmostOutOfSpace ( node_filesystem_avail_bytes{job="node-exporter",fstype!=""} / node_filesystem_size_bytes{job="node-exporter",fstype!=""} * 100 < 3and node_filesystem_readonly{job="node-exporter",fstype!=""} == 0) 告警内容：集群 {{ $labels.cluster }}/node {{ $labels.instance }}/设备 {{ $labels.device }} 只剩下 {{ printf "%.2f" $value }}%的可用空间 1.3 NodeFilesystemFilesFillingUp ( node_filesystem_files_free{job="node-exporter",fstype!=""} / node_filesystem_files{job="node-exporter",fstype!=""} * 100 < 20and predict_linear(node_filesystem_files_free{job="node-exporter",fstype!=""}[6h], 46060) < 0and node_filesystem_readonly{job="node-exporter",fstype!=""} == 0) 告警内容：集群 {{ $labels.cluster }}/node {{ $labels.instance }}/设备 {{ $labels.device }} 只剩下{{ printf "%.2f" $value }}%的可用inode 1.4 NodeFilesystemAlmostOutOfFiles ( node_filesystem_files_free{job="node-exporter",fstype!=""} / node_filesystem_files{job="node-exporter",fstype!=""} * 100 < 3and node_filesystem_readonly{job="node-exporter",fstype!=""} == 0) 告警内容：集群 {{ $labels.cluster }}/node {{ $labels.instance }}/设备 {{ $labels.device }} 只剩下{{ printf "%.2f" $value }}%的可用inode 1.5 NodeNetworkReceiveErrs rate(node_network_receive_errs_total[2m]) / rate(node_network_receive_packets_total[2m]) > 0.01 告警内容：在最近2分钟，集群 {{ $labels.cluster }}/node {{ $labels.instance }}/网卡 {{ $labels.device }} 出现{{ printf "%.0f" $value }}接收错误 1.6 NodeNetworkTransmitErrs rate(node_network_transmit_errs_total[2m]) / rate(node_network_transmit_packets_total[2m]) > 0.01 告警内容：在最近2分钟，集群 {{ $labels.cluster }}/node {{ $labels.instance }}/网卡 {{ $labels.device }} 出现{{ printf "%.0f" $value }}发送错误 1.7 NodeHighNumberConntrackEntriesUsed (node_nf_conntrack_entries / node_nf_conntrack_entries_limit) > 0.75 告警内容：{{ $value \| humanizePercentage }} of conntrack entries are used. 1.8 NodeClockSkewDetected ( node_timex_offset_seconds > 0.05and deriv(node_timex_offset_seconds[5m]) >= 0)or( node_timex_offset_seconds < -0.05and deriv(node_timex_offset_seconds[5m]) <= 0) 告警内容：集群 {{ $labels.cluster_id }}/node {{ $labels.instance }}的时钟漂移超过300秒，请检查NTP是否正常配置 1.9 NodeClockNotSynchronising min_over_time(node_timex_sync_status[5m]) == 0andnode_timex_maxerror_seconds >= 16 告警内容：集群 {{ $labels.cluster_id }}/node {{ $labels.instance }} 时钟未同步，请检查NTP是否正常配置 2.kubernetes工作负载 2.1 KubePodCrashLooping rate(kube_pod_container_status_restarts_total{job="kube-state-metrics"}[5m]) * 60 * 5 > 0 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/Pod {{ $labels.pod }}/容器 {{ $labels.container}} 最近5分钟重启{{ printf "%.2f" $value }}次 2.2 KubePodNotReady sum by (cluster,namespace, pod) ( max by(cluster,namespace, pod) ( kube_pod_status_phase{job="kube-state-metrics", phase=~"Pending\|Unknown"} ) * on(cluster,namespace, pod) group_left(owner_kind) topk by(cluster,namespace, pod) ( 1, max by(cluster,namespace, pod, owner_kind) (kube_pod_owner{owner_kind!="Job"}) )) > 0 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/Pod {{ $labels.pod }}处于NotReady状态超过15分钟 2.3 KubeDeploymentGenerationMismatch kube_deployment_status_observed_generation{job="kube-state-metrics"} !=kube_deployment_metadata_generation{job="kube-state-metrics"} 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/deployment {{ $labels.deployment}}部署版本不符合预期，表示Deployment变更没有生效 2.4 KubeDeploymentReplicasMismatch ( kube_deployment_spec_replicas{job="kube-state-metrics"} != kube_deployment_status_replicas_available{job="kube-state-metrics"}) and ( changes(kube_deployment_status_replicas_updated{job="kube-state-metrics"}[5m]) == 0) 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/deployment {{ $labels.deployment }} 没有达到预期副本数超过15分钟 2.5 KubeStatefulSetReplicasMismatch ( kube_statefulset_status_replicas_ready{job="kube-state-metrics"} != kube_statefulset_status_replicas{job="kube-state-metrics"}) and ( changes(kube_statefulset_status_replicas_updated{job="kube-state-metrics"}[5m]) == 0) 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/statefulset {{ $labels.statefulset }} 没有达到预期副本数超过15分钟 2.6 KubeStatefulSetGenerationMismatch kube_statefulset_status_observed_generation{job="kube-state-metrics"} !=kube_statefulset_metadata_generation{job="kube-state-metrics"} 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/statefulset {{ $labels.statefulset}} 部署版本不符合预期，表示statefulset变更没有生效 2.7 KubeStatefulSetUpdateNotRolledOut ( max without (revision) ( kube_statefulset_status_current_revision{job="kube-state-metrics"} unless kube_statefulset_status_update_revision{job="kube-state-metrics"} ) * ( kube_statefulset_replicas{job="kube-state-metrics"} != kube_statefulset_status_replicas_updated{job="kube-state-metrics"} )) and ( changes(kube_statefulset_status_replicas_updated{job="kube-state-metrics"}[5m]) == 0) 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/statefulset {{ $labels.statefulset }} 部分Pod未更新 2.8 KubeDaemonSetRolloutStuck ( ( kube_daemonset_status_current_number_scheduled{job="kube-state-metrics"} != kube_daemonset_status_desired_number_scheduled{job="kube-state-metrics"} ) or ( kube_daemonset_status_number_misscheduled{job="kube-state-metrics"} != 0 ) or ( kube_daemonset_updated_number_scheduled{job="kube-state-metrics"} != kube_daemonset_status_desired_number_scheduled{job="kube-state-metrics"} ) or ( kube_daemonset_status_number_available{job="kube-state-metrics"} != kube_daemonset_status_desired_number_scheduled{job="kube-state-metrics"} )) and ( changes(kube_daemonset_updated_number_scheduled{job="kube-state-metrics"}[5m]) == 0) 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/daemonset {{ $labels.daemonset }} 变更卡了超过15分钟 2.9 KubeContainerWaiting sum by (namespace, pod, container,cluster) (kube_pod_container_status_waiting_reason{job="kube-state-metrics"}) > 0 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/pod {{ $labels.pod }}/container {{ $labels.container}} 处于Waiting状态超过1小时 2.10 KubeDaemonSetNotScheduled kube_daemonset_status_desired_number_scheduled{job="kube-state-metrics"} -kube_daemonset_status_current_number_scheduled{job="kube-state-metrics"} > 0 告警内容：集群 {{ $labels.cluster }}/ namespace {{ $labels.namespace }}/daemonset {{ $labels.daemonset}} 中 {{ $value }} 个 pod 没有被调度 2.11 KubeDaemonSetMisScheduled kube_daemonset_status_number_misscheduled{job="kube-state-metrics"} > 0 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/daemonset {{ $labels.daemonset}} 中 {{ $value }} 个 pod 错误调度到node上 2.12 KubeJobCompletion kube_job_spec_completions{job="kube-state-metrics"} - kube_job_status_succeeded{job="kube-state-metrics"} > 0 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/job {{ $labels.job_name }} 运行超过12小时 2.13 KubeJobFailed kube_job_failed{job="kube-state-metrics"} > 0 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/job {{ $labels.job_name }} 执行失败 2.14 KubeHpaReplicasMismatch (kube_hpa_status_desired_replicas{job="kube-state-metrics"} !=kube_hpa_status_current_replicas{job="kube-state-metrics"}) andchanges(kube_hpa_status_current_replicas[15m]) == 0 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/HPA {{ $labels.hpa }} 副本数和预期不一致超过15分钟 2.15 KubeHpaMaxedOut kube_hpa_status_current_replicas{job="kube-state-metrics"} ==kube_hpa_spec_max_replicas{job="kube-state-metrics"} 告警内容：集群 {{ $labels.cluster }}/namespace {{ $labels.namespace }}/HPA {{ $labels.hpa }} 副本数达到最大值超过15m 3.Kubernetes资源 3.1 KubeCPUOvercommit sum(namespace:kube_pod_container_resource_requests_cpu_cores:sum{}) /sum(kube_node_status_allocatable_cpu_cores) >(count(kube_node_status_allocatable_cpu_cores)-1) / count(kube_node_status_allocatable_cpu_cores) 告警内容：集群{{ $labels.cluster }}内Pod申请的CPU过载，当前CPU申请占比{{ $value \| humanizePercentage }} 3.2 KubeMemoryOvercommit sum(namespace:kube_pod_container_resource_requests_memory_bytes:sum{}) /sum(kube_node_status_allocatable_memory_bytes) >(count(kube_node_status_allocatable_memory_bytes)-1) /count(kube_node_status_allocatable_memory_bytes) 告警内容：集群{{ $labels.cluster }}内Pod申请的内存过载，当前CPU申请占比{{ $value \| humanizePercentage }} 3.3 KubeCPUQuotaOvercommit sum(kube_resourcequota{job="kube-state-metrics", type="hard", resource="cpu"}) /sum(kube_node_status_allocatable_cpu_cores) > 1.5 告警内容：集群{{ $labels.cluster }}CPU Quota过载，已经超过可分配CPU资源的{{ $value }}倍 3.4 KubeMemoryQuotaOvercommit sum(kube_resourcequota{job="kube-state-metrics", type="hard", resource="memory"}) /sum(kube_node_status_allocatable_memory_bytes{job="node-exporter"}) > 1.5 告警内容：集群{{ $labels.cluster }}内存配额过载，已经超过可分配内存资源的{{ $value }}倍 3.5 KubeQuotaAlmostFull kube_resourcequota{job="kube-state-metrics", type="used"} / ignoring(instance, job, type)(kube_resourcequota{job="kube-state-metrics", type="hard"} > 0) > 0.9 < 1 告警内容：集群{{ $labels.cluster }}/namespace {{ $labels.namespace }}中资源{{ $labels.resource }}使用率超过{{ $value \| humanizePercentage }} 3.6 KubeQuotaExceeded kube_resourcequota{job="kube-state-metrics", type="used"} / ignoring(instance, job, type)(kube_resourcequota{job="kube-state-metrics", type="hard"} > 0) > 1 告警内容：集群{{ $labels.cluster }}/namespace {{ $labels.namespace }}中资源{{ $labels.resource }}使用率超过{{ $value \| humanizePercentage }} 3.7 PodCPULimitRate sum(rate(container_cpu_usage_seconds_total{job="cadvisor", image!="", container!="POD"}[1m])) by (cluster, namespace, pod, container) / sum(kube_pod_container_resource_limits_cpu_cores) by (cluster, namespace, pod, container) > 0.8 告警内容：集群{{ $labels.cluster }}/namespace {{ $labels.namespace }}/Pod {{ $labels.pod }}/container {{ $labels.container }}的CPU使用率(占limit)达{{ $value \| humanizePercentage }}. 3.8 PodCPURequestRate sum(rate(container_cpu_usage_seconds_total{job="cadvisor", image!="", container!="POD"}[1m])) by (cluster, namespace, pod, container) / sum(kube_pod_container_resource_requests_cpu_cores) by (cluster, namespace, pod, container) > 0.8 告警内容：集群{{ $labels.cluster }}/namespace {{ $labels.namespace }}/Pod {{ $labels.pod }}/container {{ $labels.container }}的CPU使用率(占request)达{{ $value \| humanizePercentage }}. 3.9 PodMemoryLimitRate sum(rate(container_memory_working_set_bytes{job="cadvisor", image!="", container!="POD"}[1m])) by (cluster, namespace, pod, container) / sum(kube_pod_container_resource_limits_memory_bytes) by (cluster, namespace, pod, container) > 0.8 告警内容：集群{{ $labels.cluster }}/namespace {{ $labels.namespace }}/Pod {{ $labels.pod }}/container {{ $labels.container }}的内存使用率(占limit)达{{ $value \| humanizePercentage }}. 3.10 PodMemoryRequestRate sum(rate(container_memory_working_set_bytes{job="cadvisor", image!="", container!="POD"}[1m])) by (cluster, namespace, pod, container) / sum(kube_pod_container_resource_requests_memory_bytes) by (cluster, namespace, pod, container) > 0.8 告警内容：集群{{ $labels.cluster }}/namespace {{ $labels.namespace }}/Pod {{ $labels.pod }}/container{{ $labels.container }}的内存使用率(占request)达{{ $value \| humanizePercentage }}. 4.Kubernetes存储 4.1 KubePersistentVolumeFillingUp kubelet_volume_stats_available_bytes{job="kubelet"} /kubelet_volume_stats_capacity_bytes{job="kubelet"} < 0.03 告警内容：集群{{ $labels.cluster }}/namespace {{ $labels.namespace }}/pvc {{ $labels.persistentvolumeclaim }}的存储空间只剩{{ $value \| humanizePercentage }}可用 4.2 KubePersistentVolumeFillingUp ( kubelet_volume_stats_available_bytes{job="kubelet"} / kubelet_volume_stats_capacity_bytes{job="kubelet"}) < 0.15andpredict_linear(kubelet_volume_stats_available_bytes{job="kubelet"}[6h], 4 * 24 * 3600) < 0 告警内容：集群{{ $labels.cluster }}/namespace {{ $labels.namespace }}/pvc {{ $labels.persistentvolumeclaim }}的存储空间预计4后用尽，现在还有{{ $value \| humanizePercentage }}可用 4.3 KubePersistentVolumeErrors kube_persistentvolume_status_phase{phase=~"Failed\|Pending",job="kube-state-metrics"} > 0 告警内容：集群{{ $labels.cluster }}/pv {{ $labels.persistentvolume }}状态{{ $labels.phase }} 5.Kubernetes Master 5.1 KubeClientErrors (sum(rate(rest_client_requests_total{code=~"5.."}[5m])) by (instance, job, cluster) /sum(rate(rest_client_requests_total[5m])) by (instance, job, cluster))> 0.01 告警内容：集群 {{ $labels.cluster }}/任务 {{ $labels.job }}/实例 {{ $labels.instance}} 访问APIServer出现{{ $value \| humanizePercentage }}的错误 5.2 KubeClientCertificateExpiration apiserver_client_certificate_expiration_seconds_count{job="apiserver"} > 0 and on(cluster, job) histogram_quantile(0.01, sum by (cluster, job, le) (rate(apiserver_client_certificate_expiration_seconds_bucket{job="apiserver"}[5m]))) < 86400 告警内容：访问集群{{ $labels.cluster }} apiserver的客户端证书将在24小时后过期。 5.3 KubeAPIDown sum(up{job="kube-apiserver"}) by (cluster) == 0 告警内容：集群 {{ $labels.cluster }} 的kube-apiserver没有运行 5.4 KubeSchedulerDown sum(up{job="kube-scheduler"}) by (cluster) == 0 告警内容：集群 {{ $labels.cluster }} 的kube-scheduler没有运行 5.5 KubeControllerManagerDown sum(up{job="kube-controller-manager"}) by (cluster) == 0 告警内容：集群 {{ $labels.cluster }} 的kube-controller-manager没有运行 6.Kubernetes kubelet 6.1 KubeNodeNotReady kube_node_status_condition{job="kube-state-metrics",condition="Ready",status="true"} == 0 告警内容：集群 {{ $labels.cluster }}/node {{ $labels.node }} not ready持续15分钟。 6.2 KubeletTooManyPods count by(cluster,node) ( (kube_pod_status_phase{job="kube-state-metrics",phase="Running"} == 1) * on(instance,pod,namespace,cluster) group_left(node) topk by(instance,pod,namespace,cluster) (1, kube_pod_info{job="kube-state-metrics"}))/max by(cluster,node) ( kube_node_status_capacity_pods{job="kube-state-metrics"} != 1) > 0.95 告警内容：集群 {{ $labels.cluster }}/node {{ $labels.node }} 运行pod量占容量的{{ $value \| humanizePercentage}} 6.3 KubeletClientCertificateExpiration kubelet_certificate_manager_client_ttl_seconds < 86400 告警内容：集群 {{ $labels.cluster }}/node {{ $labels.node }}上kubelet客户端证书将在{{ $value \| humanizeDuration }}后过期 6.4 KubeletServerCertificateExpiration kubelet_certificate_manager_server_ttl_seconds < 86400 告警内容：集群 {{ $labels.cluster }}/node {{ $labels.node }}上kubelet服务端证书将在{{ $value \| humanizeDuration }}后过期 6.5 KubeletDown sum(up{job="kubelet"}) by (cluster) == 0 告警内容：集群 {{ $labels.cluster }} 的kubelet没有运行 7.参考以上告警规则参考腾讯云原生监控，当然，在prometheus-operator中也有很多默认规则可以参考，具体见以下链接：https://github.com/prometheus-operator/kube-prometheus/tree/main/manifests 作者：小家电维修转世燕还故榻,为你衔来二月的花。版权声明：本文内容由网络用户投稿，版权归原作者所有，本站不拥有其著作权，亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容，请联系我们jiasou666@gmail.com 处理，核实后本网站将在24小时内删除侵权内容。标签：API 上一篇:Prometheus告警处理下一篇:休克文案：最近收藏的10句文案！（适合冷战时发的文案）相关文章 java系统找不到指定文件怎么解决 343 2022-08-31 ajax怎么读取本地文件 343 2022-08-31 C++怎么实现iocp进行SOCKET通信 343 2022-08-31 发表评论取消回复暂时没有评论，来抢沙发吧~ 推荐文章 api接口有哪几种分类及功能什么是API接口?API接口简单介绍短信API接口概述，短信API接口的优势 7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？企业四要素: 了解企业经营成功的关键什么是语音验证码?,语音验证码平台有哪些全国工商查询系统怎么查企业名录哪些平台提供实名认证的接口？ PHP如何调用API接口? 如何使用百度天气预报API接口? 最近发表 c语言sscanf函数的用法是什么 r语言清空数组的方法是什么 c语言一维数组怎么快速排列 linux怎么查看本机内存大小 linux cpu占用率如何看 r语言for循环语句怎么使用 python怎么过滤字符串中的英文字母 php怎么获取input输入的值 r语言怎么删除数据表某一个数据 c语言怎么删除数组中的数热评文章数据接口api（数据接口API开发平台）数据开放接口api（数据服务api开发） Python爬虫教程：爬取酷狗音乐（python爬取 hbuilder怎么更改字体大小和颜色直播平台api接口 - 构建卓越的直播平台实时股票数据api接口（股票实时行情api接口） apispace 加搜toBSEO 前端框架小红书营销攻略衍因科技小程序容器帮助中心小程序开发行业洞察全面预算管理资讯企微SCRM客户管理干货 3D视觉相机资讯创冷科技无电制冷 © 2023 XWNews 京ICP备1111040123号-1 版权归zblog所有