公司让做泰语的 ocr,现在用的是 crnn 模型,问题在于没有一个泰语的训练集。在网上查了下泰语的基础,见这两篇文章:
https://blog.csdn.net/cbbbc/article/details/47022337
https://blog.csdn.net/qiaojiongzeng6321/article/details/74857285
crnn 的训练集要求是一个序列图片,并给定相应的标签
由于泰语的复杂性,考虑了两种方案
1unicode 当做标签,这个方案已经被证明不可行,会输出很多不合法的泰语字符(如孤立的上标,下标等)
2 所有合成过的泰语字符当做标签(加上上标,下标之后的所有可能),问题在于不知道合成后的泰语合法字符有多少种。有没有 v 友指导一下
https://blog.csdn.net/cbbbc/article/details/47022337
https://blog.csdn.net/qiaojiongzeng6321/article/details/74857285
crnn 的训练集要求是一个序列图片,并给定相应的标签
由于泰语的复杂性,考虑了两种方案
1unicode 当做标签,这个方案已经被证明不可行,会输出很多不合法的泰语字符(如孤立的上标,下标等)
2 所有合成过的泰语字符当做标签(加上上标,下标之后的所有可能),问题在于不知道合成后的泰语合法字符有多少种。有没有 v 友指导一下