HUAWEI运转

2019-10-19 10:03 来源:未知

HUAWEI运转—互连网集团级监督系统试行(1)

Introduction

监察和控制连串是整整运转环节,以致整个产品生命周期中最注重的一环,事前眼看预先警示开采故障,事后提供翔实的数目用于追查定位难题。监察和控制系统作为贰个成熟的运营产品,产业界有不菲开源的完成可供选择。当公司刚好启航,业务规模相当的小,运行团队也恰好确立的早先时期,选择一款开源的监督系统,是三个省时省力,功用最高的方案。之后,随着事情范围的持续飞速增加,监察和控制的靶子也越来越多,更加的复杂,监察和控制体系的运用对象也从开始时代少数的几个SRE,扩充为越来越多的DEVS,SRE。那时候,监察和控制连串的体量和客商的“使用频率”成了非常卓越的标题。

监理体系产业界有相当多优异的开源监察和控制系统。大家在先前时代,一向在用zabbix,但是随着事情的迅猛腾飞,乃至网络集团故意的片段需求,现成的开源的督察连串在质量、扩大性、和客商的行使频率方面,已经敬敏不谢支撑了。

据此,大家在过去的一年里,从互连网厂家的一对需要出发,从各位SRE、SA、DEVS的采用经验和反馈出发,结合产业界的部分大的互连网公司做监察和控制,用监督的有个别思索出发,设计开辟了HTC的监察系统:open-falcon。

open-falcon的对象是做最开放、最棒用的网络商家级监督检查产品。

Highlights and features

强有力灵活的多少搜集:自动开采,帮助falcon-agent、snmp、协助顾客积极push、顾客自定义插件支持、opentsdb data model like(timestamp、endpoint、metric、key-value tags)

水平扩张工夫:扶持种种周期上亿次的多少搜罗、告急判断、历史数据存款和储蓄和询问

高功能的告急战略管理:高效的portal、支持政策模板、模板承继和蒙蔽、各个报告急察方形式、补助callback调用

人性化的告急设置:最大告急次数、告急等第、告急复苏通告、告急暂停、不一致一时候段分化阈值、支持保护周期

高功能的graph组件:单机支撑200万metric的报告、归档、存款和储蓄(周期为1秒钟)

敏捷的野史数据query组件:接纳rrdtool的多少归档计谋,秒级再次来到上百个metric一年的历史数据

dashboard:多维度的数目展示,客商自定义Screen

高可用:整个系统无大旨单点,易运营,易布署,可水平扩大

付出语言: 整个系统的后端,全部golang编写,portal和dashboard使用python编写。

Architecture

金沙澳门登陆网站 1

open-falcon architecture

备考:虚线所在的aggregator组件还在策画开拓阶段。

每台服务器,都有安装falcon-agent,falcon-agent是多个golang开采的daemon程序,用于自发掘的收罗单机的各样数据和指标,那么些指标满含不遏抑以下多少个方面,共计400多项指标。

● CPU相关

● 磁盘相关

● IO

● Load

● 内部存款和储蓄器相关

● 网络有关

金沙澳门登陆网站,● 端口存活、进度存活

● ntp offset(插件)

● 有个别进度能源消耗(插件)

● netstat、ss 等皮之不存毛将焉附计算项收罗

● 机器内核配置参数

只要安装了falcon-agent的机器,就能活动初阶搜罗每一类目的,主动申报,不须求顾客在server做任何配置(那和zabbix有非常大的不等),这样做的补益,正是客商维护方便,覆盖率高。当然如此做也会server端产生非常的大的压力,但是open-falcon的服务端组件单机品质丰裕高,同期都得以水平扩张,所以自动多征求丰富多的数目,反而是一件好专门的学业,对于SRE和DEV来说,事后追查难题,不再是难题。

另外,falcon-agent提供了二个proxy-gateway,顾客能够平价的通过http接口,push数据到本机的gateway,gateway会补助高效能的转折到server端。

falcon-agent,能够在大家的github上找到 :

Data model

Data Model是不是强盛,是不是灵活,对于监察和控制系统客商的“使用效用”至关心敬服要。比方以zabbix为例,上报的数量为hostname(或许ip)、metric,那么客户增进告急战略、管理告急计谋的时候,就只能以那三个维度举办。举叁个最常见的情景:

hostA的磁盘空间,小于5%,就报告警察方。日常的服务器上,都会有多个基本点的分区,根分区和home分区,在zabbix里面,就得加两条法则;如果是hadoop的机械,常常还有十几块的数据盘,还得再加10多条准则,那样就能够难过,不幸福,不便于自动化(当然zabbix能够通过布署部分电动发掘战略来消除这几个,可是比较麻烦)。

open-falcon,选拔和opentsdb同样的数目格式:metric、endpoint增多组key value tags,举四个例证:

{     metric: load.1min,     endpoint: open-falcon-host,     tags: srv=falcon,idc=aws-sgp,group=az1,     value: 1.5,     timestamp: `date +%s`,     counterType: GAUGE,     step: 60 } {     metric: net.port.listen,     endpoint: open-falcon-host,     tags: port=3306,     value: 1,     timestamp: `date +%s`,     counterType: GAUGE,     step: 60 } 

经过那样的数据结构,大家就能够从三个维度来布署告急,配置dashboard等等。

备注:endpoint是一个相当的tag。


金沙澳门登陆网站 2


) Introduction 监控连串是整整运维环节,以至整个产品生命周期中最要害的一环,事前立马预先警告发掘...

TAG标签:
版权声明:本文由金沙澳门唯一官网发布于金沙澳门登陆网站,转载请注明出处:HUAWEI运转