研究目的
提出一种基于监督学习的光学字符识别(OCR)系统,用于纳斯赫体乌尔都语,将印刷或手写文本高精度转换为数字格式。
研究成果
基于监督学习的OCR系统在纳斯赫体乌尔都语文本识别中达到了98.4%的准确率,这是目前乌尔都语OCR领域报道的最高水平。该系统实现简单,对印刷体和手写体文本均有效,为未来乌尔都语OCR系统的发展奠定了基础。
研究不足
该研究未包含变音符号(艾拉布)或送气字符(?)系列,仅限于纳斯赫里克字体,可能不适用于其他乌尔都语书写风格。测试数据样本量较?。?个实例),且未整合降噪技术。
1:实验设计与方法选择:
本研究采用基于网格特征提取的监督学习方法。设计了一个4×8网格来映射字符,每个单元格的状态(开/关)代表特征。应用多种监督学习算法(如朴素贝叶斯、随机森林)进行分类。
2:样本选择与数据来源:
数据集包含129个实例,涵盖40个乌尔都字母、10个数字和3个特殊字符(采用纳斯赫体字体),并考虑了单词中不同位置对应的书写风格。
3:实验设备与材料清单:
未提及特定设备;研究依赖Weka 3.8.0等软件工具进行机器学习。
4:0等软件工具进行机器学习。
实验流程与操作步骤:
4. 实验流程与操作步骤:包括图像获?。ㄉ栉牡祷蛳嗷纳悖⒎指睿ㄖ苯臃指罴际踅谋静鸱治址⑻卣魈崛。ń址成涞酵裆啥剖荩?、数据集生成(创建带标签的实例),以及在Weka中使用算法训练/测试。
5:数据分析方法:
使用Weka输出的准确率、精确率、召回率、F值等指标评估性能,并比较朴素贝叶斯和随机森林等算法。
独家科研数据包,助您复现前沿成果,加速创新突破
获取完整内容