中国科学院自动化研究所   设为首页   加入收藏  联系我们
 
English
网站首页     实验室概况     研究队伍     组织机构     学术交流     科研成果     人才培养     开放课题     创新文化     资源共享     联系我们
    新闻动态

实验室公开一批手写文本行标记数据

自由书写文档的文本行分割是文本识别的先决条件。国内文字识别研究领域一直没有支持中文手写行分割的实验数据,严重阻碍了手写汉字识别的研究进程。最近,刘成林研究员课题组对HIT-MW手写文本库做了文本行的标记工作,并已经免费公开,可到HIT-MW库的主页下载。与此相关的核心技术即将发表在国际刊物Pattern Recognition上
HIT-MW库是目前文字识别领域中唯一的文本级别的中文手写库。它的抄写文本来自人民日报语料库,涵盖了约800万字语料的99.33%用字。书写者经过精心确定,得到了与实际分布基本吻合的统计数据。目前,该库已为近三十家国内外科研机构采用,免费下载地址:http://hitmwdb.googlepages.com/

友情链接
 
中科院自动化研究所 模式识别国家重点实验室 事业单位  京ICP备14019135号-3
NLPR, INSTITUTE OF AUTOMATION, CHINESE ACADEMY OF SCIENCES