基于深度卷积神经网络的教育场景多模态文本识别

2025.11.10点击:

摘要:<正>为了解决教育材料(如教案、试卷、作业、课堂笔记等)多模态文本识别提取过程中识别效果差、识别差错率高等问题,本文基于Mask R-CNN模型,集中开发并优化神经网络算法,通过分离图像中的文本、图表,增强多尺度特征提取,同时结合循环神经网络(RNN)和Transformer处理序列信息以提升理解预测上下文能力。该过程采用多任务学习模式对模型进行迭代训练。实验表明,在复杂环境下该学习模型可以识别复杂环境下的文字,有效提升教育环境中字符识别的准确性。

基金资助: 保定理工学院2024年度校级科研项目“基于神经网络的文字识别研究”(KY202406);

专辑: 信息科技

专题: 计算机软件及计算机应用;自动化技术

分类号: TP183;TP391.41