docker swarm 集群故障与异常详解

OGeek|极客世界-中国程序员成长平台 › 门户 › 虚拟化›Docker

原作者: [db:作者] 来自: [db:来源] 收藏邀请

本文介绍了docker swarm 集群故障与异常详解，分享给大家，具体如下：

在上次遭遇 docker swarm 集群故障后，我们将 docker 由 17.10.0-ce 升级为最新稳定版 docker 17.12.0-ce 。

前天晚上22:00之后集群中的2个节点突然出现CPU波动，在CPU波动之后，在凌晨夜深人静、访问量极低的时候，整个集群出现了故障，访问集群上的所有站点都出现了502，过了一段时间后自动恢复正常。

ECS实例：swarm1-node5，CPU百分比于00:52发生告警，值为96.14%，持续时间0分钟

。。。

昨天早上发现访问部分节点中的容器应用响应有些慢，于是我们通过阿里云控制台强制重启这些节点后恢复正常。

今天上午我们在集群上更新一个应用时（部署新的镜像），出现了奇怪的问题。应用是在 swarm1-node1 这个 manager 节点上部署的，部署后容器运行在其他节点上，但奇怪的是只有在 swarm1-node1 这个节点上可以正常访问容器中的站点，在其他节点上访问都是 503 ，用 docker stack rm 命令删除应用并重新部署问题依旧。

当时 docker-flow-proxy（路由应用）的 2 个容器都是部署在 swarm1-node1 节点上的，从问题现象看，在 swarm1-node1 节点上 docker-flow-proxy 容器与外界的通信正常，docker-flow-proxy 容器与其他节点上的容器的 overlay 网络（网络A）通信正常；在其他节点上，外界的请求通过 overlay 网络（网络B）被正常转发到 docker-flow-proxy 容器，却不能被正常路由到其他节点上对应的容器（也是通过 overlay 网络A）。对这个奇怪现象实在想不通，但是问题摆在那，想不通也要解决。想不通背后的原因，那我们换个角度，其他节点都异常，就 swarm1-node1 正常，根据少数服从多数的粗暴原则，那就认为swarm1-node1 不正常吧。于是通过下面的命令将swarm1-node1 节点下线：

docker node update --availability drain swarm1-node1

swarm1-node1 下线后，其他节点都恢复了正常，果然是 swarm1-node1 不正常。

swarm1-node1 下线的背后是 docker-flow-proxy 容器换到其他节点上运行。

问题就这样被猜测解决了。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持极客世界。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

详解Ubuntu Docker Registry 搭建私有仓库发布时间：2022-02-12

CentOS7 Nvidia Docker环境搭建发布时间：2022-02-12

关于静态数据成员的简单却容易出错的小程序

1 剪的笔顺,诠释剪的笔画,认识剪的部首

剪的笔顺怎么写?剪的笔顺笔画顺序是什么?中国练字网了解到好多人在学习中会遇到剪的笔

阅读：41430|2022-11-06

2 florent37/ViewAnimator: A fluent Android

florent37/ViewAnimator: A fluent Android animation library

阅读：13459|2022-08-15

3 florent37/Shrine-MaterialDesign2: implem

florent37/Shrine-MaterialDesign2: implementation of Material Design 2 Shrine pro

阅读：12544|2022-08-17

4 CVE-2020-36276

** REJECT ** DO NOT USE THIS CANDIDATE NUMBER. ConsultIDs: none. Reason: This ca

阅读：9943|2022-09-23

5 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：8937|2023-10-27

6 doraiso/Mastodon

doraiso/Mastodon

阅读：7612|2022-08-18

7 abuanwar072/Welcome-Login-Signup-Page-Fl

abuanwar072/Welcome-Login-Signup-Page-Flutter: Mobile app onboarding, Login, Sig

阅读：7538|2022-09-04

8 SimpleSoftwareIO/simple-sms: Send and re

SimpleSoftwareIO/simple-sms: Send and receive SMS messages with Laravel

阅读：7248|2022-08-13

9 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：6487|2022-11-06

10 Azure-Samples/MachineLearning-MusicGener

Azure-Samples/MachineLearning-MusicGeneration: Using Azure Machine Learning to b

阅读：6158|2022-08-19

客服电话

电子邮件

docker swarm 集群故障与异常详解

请发表评论

全部评论

上一篇：

下一篇：

六六分期app的软件客服如何联系？(六六分期

可心卡盟:win10系统火狐flash插件崩溃怎么

亲亲特价:怎么删除回收站图标

济南大学虚拟社区:鲁大师节能降温的具体办

xlueops.exe:无线网络安装向导

关于静态数据成员的简单却容易出错的小程序

CVE-2022-35315

krishnaik06/Machine-Learning-in-90-days

reactioncommerce/reaction-component-libr

armancodv/building-energy-model-matlab:

美元符号为什么是“$”

关于我们

产品与服务

解决方案

139-2527-9053