标题
- 标题
- 摘要
- 关键词
- 实验方案
- 产品
中文(中国)
▾
-
基于监督学习的纳斯赫体乌尔都语类手写文字光学字符识别系统
摘要: 将手写或印刷文本转换为数字格式主要有两种技术。第一种是创建文本图像,但图像文件体积庞大,需要占用大量存储空间,且图像中的文本无法进行编辑、搜索、复制等后续处理。第二种是采用光学字符识别(OCR)系统。OCR能读取文档并将手写文本转换为数字文本,这种数字文本可进一步处理以提取知识。大量乌尔都语资料以手写或印刷形式存在,需转换为数字格式以实现知识获取。乌尔都语具有高度连笔、结构复杂、双向书写及复合特性等特点,这使得获取准确的OCR识别结果极具挑战性。本研究提出了一种基于监督学习的纳斯赫体乌尔都语OCR系统。该系统在多种实验环境下的评估达到了98.4%的准确率,创下乌尔都语OCR系统有史以来的最高识别纪录。该系统实现简单(尤其适用于OCR软件前端),既能处理印刷文本也能处理手写文本,将有助于未来开发更精准的乌尔都语OCR软件系统。
关键词: 光学字符识别(OCR)、图像处理、乌尔都语纳斯赫体、监督学习、模式识别
更新于2025-09-23 15:23:52