有没有懂泰语的 v 友

This topic created in 2287 days ago, the information mentioned may be changed or developed.

公司让做泰语的 ocr，现在用的是 crnn 模型，问题在于没有一个泰语的训练集。在网上查了下泰语的基础，见这两篇文章：
https://blog.csdn.net/cbbbc/article/details/47022337
https://blog.csdn.net/qiaojiongzeng6321/article/details/74857285

crnn 的训练集要求是一个序列图片，并给定相应的标签

由于泰语的复杂性，考虑了两种方案
1unicode 当做标签，这个方案已经被证明不可行，会输出很多不合法的泰语字符（如孤立的上标，下标等）
2 所有合成过的泰语字符当做标签（加上上标，下标之后的所有可能），问题在于不知道合成后的泰语合法字符有多少种。有没有 v 友指导一下

泰语

训练集

字符

crnn

4 replies • 2020-02-27 14:21:28 +08:00