Webscoket 客户端连接 2分钟断开 1006 错误码

踩坑教训·协议 · 2023-05-24

问题描述 :

观察客户端 每2分钟 websocket 断开连接, 提示 1006 CLOSE_ABNORMAL.

排查问题 :

服务端观察日志能发现的确与客户端同一时间断开连接. 但服务端onClose事件并不是服务端主动要求断开的.
客户端也有6秒 定时发ping包, 双方心跳检测都不是超时问题.
知道运维同学 帮忙查了下, 使用cloudflare CDN的新域名观察后并没有这个问题.
那就破案了,现有的域名CND用的都是Google Cloud , 运维同学咨询了谷歌售后服务. 回答的都绝了

聊天内容如下 :

> $1 : 关于负载均衡的问题,,用户 -> 负载均衡 -> nginx,https的服务没有问题,websocket的服务2分钟后就断了

> $1 : timeout设置为999999999

> $2 : 这是有哪些地方需要单独设置吗
> $1 : 对
> $2 : 那会影响https的服务吗
> $1 : 对
> $2 : 把websocket单独令出来

上面对话简单来说就是 我们webscoket服务用的谷歌云的负载均衡,又一个超时配置. 120秒没有请求过来负载机切换到其他服务器了. 就算后面是单机他也会断开. 调整这个问题很简单,单独配置websocket的负载. 调大超时秒数.

谷歌云的负载均衡超时仅依赖于短链接请求. 并不适用于长连接, 只能通过加超长的timeout 解决问题

重要信息错误状态码

WebSocket断开时,会触发CloseEvent, CloseEvent会在连接关闭时发送给使用 WebSockets 的客户端. 它在 WebSocket 对象的 onclose 事件监听器中使用。CloseEvent的code字段表示了WebSocket断开的原因。可以从该字段中分析断开的原因。

CloseEvent有三个字段需要注意, 通过分析这三个字段,一般就可以找到断开原因

CloseEvent.code: code是错误码,是整数类型
CloseEvent.reason: reason是断开原因,是字符串
CloseEvent.wasClean: wasClean表示是否正常断开,是布尔值。一般异常断开时,该值为false


一般来说1006的错误码出现的情况比较常见,该错误码一般出现在断网时。

状态码名称描述
0–999 保留段, 未使用.
1000CLOSE_NORMAL正常关闭; 无论为何目的而创建, 该链接都已成功完成任务.
1001CLOSE_GOING_AWAY终端离开, 可能因为服务端错误, 也可能因为浏览器正从打开连接的页面跳转离开.
1002CLOSE_PROTOCOL_ERROR由于协议错误而中断连接.
1003CLOSE_UNSUPPORTED由于接收到不允许的数据类型而断开连接 (如仅接收文本数据的终端接收到了二进制数据).
1004 保留. 其意义可能会在未来定义.
1005CLOSE_NO_STATUS保留. 表示没有收到预期的状态码.
1006CLOSE_ABNORMAL保留. 用于期望收到状态码时连接非正常关闭 (也就是说, 没有发送关闭帧).
1007Unsupported Data由于收到了格式不符的数据而断开连接 (如文本消息中包含了非 UTF-8 数据).
1008Policy Violation由于收到不符合约定的数据而断开连接. 这是一个通用状态码, 用于不适合使用 1003 和 1009 状态码的场景.
1009CLOSE_TOO_LARGE由于收到过大的数据帧而断开连接.
1010Missing Extension客户端期望服务器商定一个或多个拓展, 但服务器没有处理, 因此客户端断开连接.
1011Internal Error客户端由于遇到没有预料的情况阻止其完成请求, 因此服务端断开连接.
1012Service Restart服务器由于重启而断开连接.
1013Try Again Later服务器由于临时原因断开连接, 如服务器过载因此断开一部分客户端连接.
1014 由 WebSocket标准保留以便未来使用.
1015TLS Handshake保留. 表示连接由于无法完成 TLS 握手而关闭 (例如无法验证服务器证书).
1016–1999 由 WebSocket标准保留以便未来使用.
2000–2999 由 WebSocket拓展保留使用.
3000–3999 可以由库或框架使用.? 不应由应用使用. 可以在 IANA 注册, 先到先得.
4000–4999 可以由应用使用.
websocket
Theme Jasmine by Kent Liao