-
Notifications
You must be signed in to change notification settings - Fork 5k
[Bug][remote] channel time out #3789
Copy link
Copy link
Closed
Description
Describe the bug
某些网络情况下,master submit task时,无法进行netty通信,task信息发送不到worker,等待很长时间之后,出现time out的异常,然后过一段儿时间就又会出现这种现象。
To Reproduce
Steps to reproduce the behavior, for example:
- 手动运行某个流程
- 流程处于运行中,所有任务全部是已提交的灰色圆点状态
- master节点很长一段时间之后会出现timeout的异常
- worker端没有接受到master的信息
Expected behavior
在send方法中,获取channel的时候判断了channel的状态是否active,怀疑这里获取到的active 状态的channel并不能向worker发送数据,等待这个channel异常之后,重新创建的channel可以短暂使用,但是过一段儿时间还是会这样复现
Screenshots
公司环境截不了图
Which version of Dolphin Scheduler:
-[1.3.1]
-[1.3.2]
Additional context
不同的网络环境可能结果不同,有朋友的测试集群没有出现异常,而生产出现异常。我个人的生产环境还没有上线进行测试,测试环境基本每半个小时左右可以出现一次
Requirement or improvement
- 希望尽快修复这个问题,严重影响调度
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
bugSomething isn't workingSomething isn't working