首先感谢大佬 @ycszen 的工作:)
文章中有些我觉得写的不是很清楚的地方想问一下,关于generalization to large models章节中提到的两个参数α和d。

关于α,我觉得指的是进入segmentation heads模块之前的channel expansion倍数,如下图所示

那么这个d参数指的是什么呢,文章中说d参数控制的是模型的深度,那么这个d是指代上文中的什么参数呢,是module repeat的次数吗.
还有点疑惑就是table5下方的描述α控制模型的channel capacity而d控制layer nums.然后下文中说α是width multiplier,d是depth multiplier。请问这个地方上下文的表述是否一致。

这两个参数该如何理解更为准确呢。还请大佬有时间不吝赐教 :)
By the way 初步实现了下 确实很快:)