Skip to content

[Bug][remote] channel time out  #3789

@nightxing

Description

@nightxing

Describe the bug
某些网络情况下,master submit task时,无法进行netty通信,task信息发送不到worker,等待很长时间之后,出现time out的异常,然后过一段儿时间就又会出现这种现象。

To Reproduce
Steps to reproduce the behavior, for example:

  1. 手动运行某个流程
  2. 流程处于运行中,所有任务全部是已提交的灰色圆点状态
  3. master节点很长一段时间之后会出现timeout的异常
  4. worker端没有接受到master的信息

Expected behavior
在send方法中,获取channel的时候判断了channel的状态是否active,怀疑这里获取到的active 状态的channel并不能向worker发送数据,等待这个channel异常之后,重新创建的channel可以短暂使用,但是过一段儿时间还是会这样复现

Screenshots
公司环境截不了图

Which version of Dolphin Scheduler:
-[1.3.1]
-[1.3.2]

Additional context
不同的网络环境可能结果不同,有朋友的测试集群没有出现异常,而生产出现异常。我个人的生产环境还没有上线进行测试,测试环境基本每半个小时左右可以出现一次

Requirement or improvement

  • 希望尽快修复这个问题,严重影响调度

Metadata

Metadata

Assignees

Labels

bugSomething isn't working

Type

No type

Projects

No projects

Milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions