自由书写文档的文本行分割是文本识别的先决条件。国内文字识别研究领域一直没有支持中文手写行分割的实验数据,严重阻碍了手写汉字识别的研究进程。最近,刘成林研究员课题组对HIT-MW手写文本库做了文本行的标记工作,并已经免费公开,可到HIT-MW库的主页下载。与此相关的核心技术即将发表在国际刊物Pattern Recognition上。
HIT-MW库是目前文字识别领域中唯一的文本级别的中文手写库。它的抄写文本来自人民日报语料库,涵盖了约800万字语料的99.33%用字。书写者经过精心确定,得到了与实际分布基本吻合的统计数据。目前,该库已为近三十家国内外科研机构采用,免费下载地址: http://hitmwdb.googlepages.com/。
|