[Feature] Unify duplicate code between `mooncake/conn.py` and `common/conn.py` · Issue #10170 · sgl-project/sglang

For now, two major KV managers (mooncake, nixl) have too many duplicate codes. For example,

sglang/python/sglang/srt/disaggregation/mooncake/conn.py

Lines 1267 to 1321 in 8717d6b

    
           # Currently, we don't allow prefill instance and decode instance to 
        
           # have different TP sizes per DP rank, except for models using MLA. 
        
           if self.kv_mgr.attn_tp_size == self.prefill_attn_tp_size: 
        
               self.target_tp_rank = ( 
        
                   self.kv_mgr.kv_args.engine_rank % self.kv_mgr.attn_tp_size 
        
               ) 
        
               self.required_dst_info_num = 1 
        
               self.required_prefill_response_num = 1 * ( 
        
                   self.prefill_pp_size // self.kv_mgr.pp_size 
        
               ) 
        
               self.target_tp_ranks = [self.target_tp_rank] 
        
           elif self.kv_mgr.attn_tp_size > self.prefill_attn_tp_size: 
        
               if not self.kv_mgr.is_mla_backend: 
        
                   logger.warning_once( 
        
                       "Performance is NOT guaranteed when using different TP sizes for non-MLA models. " 
        
                   ) 
        
               self.target_tp_rank = ( 
        
                   self.kv_mgr.kv_args.engine_rank % self.kv_mgr.attn_tp_size 
        
               ) // (self.kv_mgr.attn_tp_size // self.prefill_attn_tp_size) 
        
               self.required_dst_info_num = ( 
        
                   self.kv_mgr.attn_tp_size // self.prefill_attn_tp_size 
        
               ) 
        
               self.required_prefill_response_num = 1 * ( 
        
                   self.prefill_pp_size // self.kv_mgr.pp_size 
        
               ) 
        
               self.target_tp_ranks = [self.target_tp_rank] 
        
           else: 
        
               if not self.kv_mgr.is_mla_backend: 
        
                   logger.warning_once( 
        
                       "Performance is NOT guaranteed when using different TP sizes for non-MLA models. " 
        
                   ) 
        
               # For non-MLA models, one decode rank needs to retrieve KVCache from multiple prefill ranks for non MLA models; 
        
               self.target_tp_ranks = [ 
        
                   rank 
        
                   for rank in range( 
        
                       (self.kv_mgr.kv_args.engine_rank % self.kv_mgr.attn_tp_size) 
        
                       * (self.prefill_attn_tp_size // self.kv_mgr.attn_tp_size), 
        
                       (self.kv_mgr.kv_args.engine_rank % self.kv_mgr.attn_tp_size + 1) 
        
                       * (self.prefill_attn_tp_size // self.kv_mgr.attn_tp_size), 
        
                   ) 
        
               ] 
        
               # For MLA models, we can retrieve KVCache from only one prefill rank, but we still need to maintain 
        
               # multiple connections in the connection pool and have to send dummy requests to other prefill ranks, 
        
               # or the KVPoll will never be set correctly 
        
               self.target_tp_rank = self.target_tp_ranks[0] 
        
               self.required_dst_info_num = 1 
        
               if self.kv_mgr.is_mla_backend: 
        
                   self.required_prefill_response_num = ( 
        
                       self.prefill_pp_size // self.kv_mgr.pp_size 
        
                   ) 
        
               else: 
        
                   self.required_prefill_response_num = ( 
        
                       self.prefill_attn_tp_size // self.kv_mgr.attn_tp_size 
        
                   ) * (self.prefill_pp_size // self.kv_mgr.pp_size)

and

sglang/python/sglang/srt/disaggregation/common/conn.py

Lines 143 to 184 in 8717d6b

    
                   logger.error( 
        
                       f"Could not fetch prefill parallel info for bootstrap_addr: {self.bootstrap_addr}" 
        
                   ) 
        
               else: 
        
                   self.kv_mgr.prefill_tp_size_table[self.bootstrap_addr] = ( 
        
                       self.prefill_tp_size 
        
                   ) 
        
                   self.kv_mgr.prefill_dp_size_table[self.bootstrap_addr] = ( 
        
                       self.prefill_dp_size 
        
                   ) 
        
           else: 
        
               self.prefill_tp_size = self.kv_mgr.prefill_tp_size_table[ 
        
                   self.bootstrap_addr 
        
               ] 
        
               self.prefill_dp_size = self.kv_mgr.prefill_dp_size_table[ 
        
                   self.bootstrap_addr 
        
               ] 
        
           # Currently, we don't allow prefill instance and decode instance to 
        
           # have different TP sizes per DP rank, except for models using MLA. 
        
           local_tp_size_per_dp_rank = self.kv_mgr.tp_size // self.kv_mgr.dp_size 
        
           prefill_tp_size_per_dp_rank = self.prefill_tp_size // self.prefill_dp_size 
        
           if local_tp_size_per_dp_rank == prefill_tp_size_per_dp_rank: 
        
               self.target_tp_rank = ( 
        
                   self.kv_mgr.kv_args.engine_rank % local_tp_size_per_dp_rank 
        
               ) 
        
               self.required_dst_info_num = 1 
        
               self.target_tp_ranks = [self.target_tp_rank] 
        
           elif local_tp_size_per_dp_rank > prefill_tp_size_per_dp_rank: 
        
               assert ( 
        
                   self.kv_mgr.is_mla_backend 
        
               ), "PD with different TP sizes per DP rank is not yet supported for non-MLA models" 
        
               self.target_tp_rank = ( 
        
                   self.kv_mgr.kv_args.engine_rank % local_tp_size_per_dp_rank 
        
               ) // (local_tp_size_per_dp_rank // prefill_tp_size_per_dp_rank) 
        
               self.required_dst_info_num = ( 
        
                   local_tp_size_per_dp_rank // prefill_tp_size_per_dp_rank 
        
               ) 
        
               self.target_tp_ranks = [self.target_tp_rank] 
        
           else: 
        
               assert ( 
        
                   self.kv_mgr.is_mla_backend

The core problem here is mooncake is not inherited from the common class (CommonKVReceiver, CommonKVManager, etc.)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature] Unify duplicate code between `mooncake/conn.py` and `common/conn.py` #10170

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

	# Currently, we don't allow prefill instance and decode instance to
	# have different TP sizes per DP rank, except for models using MLA.
	if self.kv_mgr.attn_tp_size == self.prefill_attn_tp_size:
	self.target_tp_rank = (
	self.kv_mgr.kv_args.engine_rank % self.kv_mgr.attn_tp_size
	)
	self.required_dst_info_num = 1
	self.required_prefill_response_num = 1 * (
	self.prefill_pp_size // self.kv_mgr.pp_size
	)
	self.target_tp_ranks = [self.target_tp_rank]
	elif self.kv_mgr.attn_tp_size > self.prefill_attn_tp_size:
	if not self.kv_mgr.is_mla_backend:
	logger.warning_once(
	"Performance is NOT guaranteed when using different TP sizes for non-MLA models. "
	)
	self.target_tp_rank = (
	self.kv_mgr.kv_args.engine_rank % self.kv_mgr.attn_tp_size
	) // (self.kv_mgr.attn_tp_size // self.prefill_attn_tp_size)
	self.required_dst_info_num = (
	self.kv_mgr.attn_tp_size // self.prefill_attn_tp_size
	)
	self.required_prefill_response_num = 1 * (
	self.prefill_pp_size // self.kv_mgr.pp_size
	)
	self.target_tp_ranks = [self.target_tp_rank]
	else:
	if not self.kv_mgr.is_mla_backend:
	logger.warning_once(
	"Performance is NOT guaranteed when using different TP sizes for non-MLA models. "
	)
	# For non-MLA models, one decode rank needs to retrieve KVCache from multiple prefill ranks for non MLA models;
	self.target_tp_ranks = [
	rank
	for rank in range(
	(self.kv_mgr.kv_args.engine_rank % self.kv_mgr.attn_tp_size)
	* (self.prefill_attn_tp_size // self.kv_mgr.attn_tp_size),
	(self.kv_mgr.kv_args.engine_rank % self.kv_mgr.attn_tp_size + 1)
	* (self.prefill_attn_tp_size // self.kv_mgr.attn_tp_size),
	)
	]

	# For MLA models, we can retrieve KVCache from only one prefill rank, but we still need to maintain
	# multiple connections in the connection pool and have to send dummy requests to other prefill ranks,
	# or the KVPoll will never be set correctly
	self.target_tp_rank = self.target_tp_ranks[0]
	self.required_dst_info_num = 1
	if self.kv_mgr.is_mla_backend:
	self.required_prefill_response_num = (
	self.prefill_pp_size // self.kv_mgr.pp_size
	)
	else:
	self.required_prefill_response_num = (
	self.prefill_attn_tp_size // self.kv_mgr.attn_tp_size
	) * (self.prefill_pp_size // self.kv_mgr.pp_size)

	logger.error(
	f"Could not fetch prefill parallel info for bootstrap_addr: {self.bootstrap_addr}"
	)
	else:
	self.kv_mgr.prefill_tp_size_table[self.bootstrap_addr] = (
	self.prefill_tp_size
	)
	self.kv_mgr.prefill_dp_size_table[self.bootstrap_addr] = (
	self.prefill_dp_size
	)
	else:
	self.prefill_tp_size = self.kv_mgr.prefill_tp_size_table[
	self.bootstrap_addr
	]
	self.prefill_dp_size = self.kv_mgr.prefill_dp_size_table[
	self.bootstrap_addr
	]

	# Currently, we don't allow prefill instance and decode instance to
	# have different TP sizes per DP rank, except for models using MLA.
	local_tp_size_per_dp_rank = self.kv_mgr.tp_size // self.kv_mgr.dp_size
	prefill_tp_size_per_dp_rank = self.prefill_tp_size // self.prefill_dp_size
	if local_tp_size_per_dp_rank == prefill_tp_size_per_dp_rank:
	self.target_tp_rank = (
	self.kv_mgr.kv_args.engine_rank % local_tp_size_per_dp_rank
	)
	self.required_dst_info_num = 1
	self.target_tp_ranks = [self.target_tp_rank]
	elif local_tp_size_per_dp_rank > prefill_tp_size_per_dp_rank:
	assert (
	self.kv_mgr.is_mla_backend
	), "PD with different TP sizes per DP rank is not yet supported for non-MLA models"
	self.target_tp_rank = (
	self.kv_mgr.kv_args.engine_rank % local_tp_size_per_dp_rank
	) // (local_tp_size_per_dp_rank // prefill_tp_size_per_dp_rank)
	self.required_dst_info_num = (
	local_tp_size_per_dp_rank // prefill_tp_size_per_dp_rank
	)
	self.target_tp_ranks = [self.target_tp_rank]
	else:
	assert (
	self.kv_mgr.is_mla_backend

[Feature] Unify duplicate code between mooncake/conn.py and common/conn.py #10170

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions

[Feature] Unify duplicate code between `mooncake/conn.py` and `common/conn.py` #10170