CRNN详解

名称：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

论文：https://arxiv.org/abs/1507.05717

会议：ICDAR 2015

github: https://github.com/meijieru/crnn.pytorch

一、网络结构

CRNN整体架构包含三部分：

CNN特征提取层输入图像通过多层卷积和池化操作提取局部特征，生成特征图（Feature Map）。例如，采用类似VGG的卷积层结构，逐步缩小空间维度并增加通道数，最终输出特征序列‌12。
RNN序列建模层将CNN输出的特征序列转化为时序相关的序列特征。通常采用双向LSTM（BLSTM），捕捉前后文信息，解决传统RNN的梯度消失问题‌35。
CTC转录层将RNN输出的概率序列映射为最终字符序列。CTC通过动态规划合并重复字符和空白标签，解决输入输出序列长度不一致的问题

CRNN中的‌Map-to-Sequence‌是将卷积神经网络（CNN）输出的二维特征图转化为适合循环神经网络（RNN）处理的一维序列数据的关键步骤，其核心作用是为后续的序列建模提供时序依赖特征。具体实现过程如下：

‌输入特征图‌ CNN输出的特征图尺寸通常为 H×W×C（高度×宽度×通道数）。例如，输入图像高度归一化为32像素时，经过多层卷积和池化后，特征图高度可能压缩至1，宽度保留较多（如100列）。
‌特征序列转换‌ 将特征图按‌宽度方向（W维度）切分‌，每一列（尺寸为 H×C）作为一个时间步的特征向量。最终得到长度为 W 的序列，每个时间步的特征维度为 H×C（如512维）‌。示例：若特征图尺寸为 1×100×512，则转换为100个时间步，每个时间步的特征为512维的向量序列‌。
‌适配RNN输入‌ 转换后的序列输入到双向LSTM中，利用RNN捕捉序列的上下文依赖关系，完成对文本字符的时序预测‌。

‌特征图尺寸设计‌
- 通过调整池化层参数（如使用 1×2 池化窗口）减少高度压缩，保留宽度方向信息，适应文本水平排列的特点‌。
- 最终特征图高度通常压缩为1，宽度与输入图像的文本长度成比例‌48。
‌序列顺序对齐‌
- 特征图按‌从左到右的列顺序‌切分，与文本阅读方向一致，确保RNN能正确建模字符顺序‌。
‌支持变长输入‌
- 宽度 W 可变，支持不同长度的文本识别，避免固定尺寸输入的限制‌。

Map-to-Sequence通过‌空间特征序列化‌，将CNN的视觉特征与RNN的时序建模能力结合，是CRNN实现端到端不定长文本识别的核心模块。其设计兼顾了文本图像的空间特性和序列特性，解决了传统方法需字符切割的局限性‌。