立即注册 找回密码
查看: 1880|回复: 2

独立服务器出现问题怎么处理

[复制链接]

27

主题

2

回帖

107

积分

GM2-白银会员

Rank: 2

积分
107
金刚石
0
发表于 2019-9-18 09:43:42 | 显示全部楼层 |阅读模式

马上注册,享受更多版本,享用更多工具,让你轻松架设传奇网游。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
全网物理机宕机准确探测与实时发现,可以给宕机分析提供第一现场,获取第一现场的日志。也可以尽早将宕机数据推送给业务或运营感知并处理,如自动报修,业务迁移等,从而尽可能将业务影响降到最低。更重要的是,准确的宕机发现数据可以为宕机预测提供准确的标注数据,为后期宕机预测提供数据基础,并且这些数据提供给运营部门进行整体分析,提升处理效率。那么,如何可以准确发现宕机,减少误报呢?我们可以有以下操作,比如:

心跳源检测异常

顾名思义,通过心跳源,初步发现异常。通常心跳变化会有三类消息,update消息,delete消息和insert消息。心跳逻辑在于,正常情况下SA服务端与NC建立长连接,每数秒缓存一次心跳,每几分钟打包上报一次,但当NC异常时,长连接感知后,立即上报异常,并修改路由表,所以心跳异常做到秒级感知。

update消息,在有心跳发生变化情况下都会有,心跳异常和心跳恢复正常时都会发起,是主要的心跳来源。

delete消息,在心跳异常,并且SA判断ping不通,且ssh不通情况下发起,删除该条消息,避免延迟太长。

insert消息,在新增加机器,或者重装后重新上位的机器发起,该消息对宕机发现价值不大,配合uptime使用。

心跳源检测任务逻辑,主要是监听并缓存uptime消息,同时避免时间窗内多次消息冲突,导致信息被覆盖。

异常排除

排除非物理机器,将系统中暂时不关注的VM等产生的异常信息排除掉。

排除非业务状态的机器,如装机状态中的,包括生产中,维修中,迁移中,重装中,销毁中,重启中,无管控状态,只监控正常状态的机器。

排除非正在工作的机器,如非working状态机器。

网络干扰排除

宕机分析中,较多误报是由于网络问题干扰,无法准确判断出物理机是否宕机,有可能是网络问题。

排除上联网络设备异常导致的误报,包括机房断网演练,小面积网络故障,上联网络故障,如通过探测丢包情况,使用一些逻辑初步判断网络问题。

服务器本身未丢包的误报,除了需要过滤出网络问题,还要通过丢包数据分析,过滤掉SA误报问题,SA异常会上报心跳异常,被误理解为宕机。


企业 QQ:3007502077


楼主热帖




上一篇:武易满V版SF2019年全新变态页游!武易满V版纯散人服上线送VIP4,非rmb玩家平
下一篇:玩不用钱的SF页游_神龙毁灭SF+战神录SF_极品RMB礼包,无限元宝满V,进服就送福利
回复

使用道具 举报

0

主题

1万

回帖

2万

积分

GM2-至尊宗师

Rank: 8Rank: 8

积分
21656
金刚石
16
发表于 2019-9-18 09:50:12 | 显示全部楼层
占位学习如何开区
回复

使用道具 举报

0

主题

1万

回帖

2万

积分

GM2-至尊宗师

Rank: 8Rank: 8

积分
21418
金刚石
0
发表于 2019-9-23 13:34:57 | 显示全部楼层
希望广东盛网小叶能发不一下多区合区工具
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

社区精彩导读
传奇热门资源
宣传专版
热门软件应用

QQ|站长QQ:76944522|传奇版本|小黑屋|传奇服务端|传奇一条龙|光芒论坛 |友链申请|网站地图

GMT+8, 2024-3-29 02:14 , Processed in 0.452401 second(s), 32 queries .

Powered by gm2.cc! X3.4 © 2015-2022 www.gm2.cc

快速回复 返回顶部 返回列表