pp

Results 9 comments of pp

> @bityigoss did you solve it? @florinhegedus i increase the bs, but i stil met the problem. Sorry, I didn't find a solution

@vince62s Thanks for your reply, here is my code for post-normalization #2199

@vince62s thank you, I tested on IWSLT14-DE-EN dataset, and my training config is like(skiped the cropus and vocab opts parts ): if I set **normalize_after** option to true, the BLEU...

@mayang1 训练数据基于生成数据训练的,最终数量约900万条,主要因为图片数据太大,不太方便上传。 - 生成工具主要基于ReadMe.txt中使用的repo代码,可以根据情况增加一些效果,如阴影边框等; - 语料是基于开放的 搜狗新闻+wiki等中文语料提取,提取时基本遵循标点符号断句,样本字符长度[6,24]。 - 分析了部分字符的分布,对样本进行了采样和选择,去掉了部分低频字符,最终选择了config/chn.txt字符列表 - 生成图片样本时,也采用了多个开源字体 如果你有好的建议或者数据集,欢迎分享,谢谢。

LMDB数据格式转换可使用脚本:[utils/create_lmdb_dataset.py](https://github.com/bityigoss/mtl-text-recognition/blob/master/utils/create_lmdb_dataset.py)

@longnanxi 训练log中的准确率如何,预测是在测试集上做的还很差吗?还有考虑训练集是否太小导致过拟合了。 跑通代码可以首先下载预训练的模型运行预测部分,了解预测过程;其次构造训练样本迭代,与预训练模型的baseline对比;

https://github.com/pytorch/pytorch/issues/23393 看看这里是否有帮助

@matrixssy any progress ? thank you.

if we still tie the weights of lm_head in multi-token prediction, how they output different token predictions? @win10ogod