Skip to content

关于Generalization to large models章节中的参数问题 #2

@MaybeShewill-CV

Description

@MaybeShewill-CV

首先感谢大佬 @ycszen 的工作:)
文章中有些我觉得写的不是很清楚的地方想问一下,关于generalization to large models章节中提到的两个参数α和d。
Screenshot from 2020-04-16 19-52-47

关于α,我觉得指的是进入segmentation heads模块之前的channel expansion倍数,如下图所示
Screenshot from 2020-04-16 19-51-51

那么这个d参数指的是什么呢,文章中说d参数控制的是模型的深度,那么这个d是指代上文中的什么参数呢,是module repeat的次数吗.

还有点疑惑就是table5下方的描述α控制模型的channel capacity而d控制layer nums.然后下文中说α是width multiplier,d是depth multiplier。请问这个地方上下文的表述是否一致。
Screenshot from 2020-04-16 20-02-19
这两个参数该如何理解更为准确呢。还请大佬有时间不吝赐教 :)

By the way 初步实现了下 确实很快:)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions