经济参考报

“PDF图像OCR识别系统”助推中国电子政务

2007-08-09 记者:周文林来源:经济参考报

　　本报讯针对政府机构中大量PDF文档无法编辑、拷贝和检索的难题，近日，汉王科技推出了“PDF图像OCR识别系统”。业内专家普遍认为，它的推出使得PDF文档无法编辑、拷贝和检索的难题迎刃而解，将有助于推动中国电子政务的快速发展。
　　随着电子政务、办公自动化OA工程的全面实施，“无纸化”办公的趋势已经不可阻挡。目前，在国家各级政府的电子政务网络里，以PDF为格式的电子文档得到了广泛应用，全面取代了之前的传统方式。大量的政府文档、通知、档案资料、财务报表都以PDF格式存储、传输、流转、交换和下发。相比较而言，PDF具有许多其他电子文档格式无法相比的优点，如完全保持纸质文档原样，存贮空间小，便于网络传输等。
　　然而，作为一种“图像”格式，PDF的“只读”特性使其只能“看”，却无法进行文本编辑、拷贝和引用，PDF文档之间也无法相互引用和检索。这样大量文档只能是一堆“死”的文字，而不是可应用的“流动”信息。面对不同部门、不同内容的PDF文档，如果要拷贝、检索、整理和归类，需要花费大量的人力和物力用人工方式重新整理录入。
　　据悉，新推出的识别系统使政府机构多版本的PDF文档能成为单一的文本格式。该系统不但可以整合不同机构、部门的分类信息，打破传统行政机关时间、空间和部门分隔的制约，使各级政府的各项监管工作更加严密，服务更加便捷，而且还加强了对档案进行科学且高效管理的能力，能充分实现各类信息的在线检索、查询、浏览和阅读功能，从而为海量信息的交叉检索、深度内容的进一步发掘和开拓打开了更为广阔的天地。
　　业内人士认为，PDF文档转换文本文档产品的普及，将大大加速电子政务的进程。