双层PDF技术在档案数字化过程中的应用
发布时间:2022-09-06 作者:小编 点击:次
什么是双层PDF文件格式?
双层PDF格式文件是一种具有多层结构的PDF格式文件,是PDF文件衍生的一种文件,其特点是:文件既可以是文本型的,也可以是图像型的,既可以100%保留原始版面效果,又便于建立索引数据库,进行科学的管理。
双层PDF与OCR技术结合
OCR(optical character recognition)文字识别系统是指电子设备检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。通过OCR文字识别系统得到的双层PDF可以在打印的时候保持原图输出。
双层PDF与档案数字化
为了方便档案的数字化管理,纸介质文件要通过图像扫描仪进行扫描录入再通过数字化加工转化成相应格式。一般来说,对纸质档案的数字化加工流程有图像档案形成流程、双层PDF档案形成流程或纯数字化档案形成流程。双层PDF格式的文件的形成流程主要有两个方面:首先,将扫描获得的图像转入图像处理系统,对扫描图像进行处理和优化。其次,将处理好的图像利用双层PDF软件转化成双层PDF文档,形成标准的文本。
双层PDF与全文索引
目前档案检索的常见检索方式有主题、分类、文号、自序等,双层PDF技术可以实现全文的复制、搜索等功能,解决了以往非文本资料只能阅读,不能检索、复制的问题。因此,双层PDF文档技术在全文搜索中的应用对研究如何实现全文一站式搜索具有非常重要的现实意义。
首先,将处理好的双层PDF文档挂接到档案管理系统中的相应案卷和卷内文件目录。其次,再将原文的存放地址信息自动存入数据库,通过与案卷和卷内文件目录相对应,在档案文档的Text层文本内容及其元数据等相关信息之间建立永久联系,形成数据包。最后,在形成数据包之后,通过调用全文检索子系统内核函数,为数字化加工后的双层PDF文件和数据包建立对应的索引文件。创建索引时,要先提取双层PDF文档中的Text层、文档对应的卷内目录和案卷目录及有关元数据(也可以说是结构化和非结构化数据)的信息,再根据提取的信息创建索引文件。
通过与传统搜索方式进行对比,可以看出基于双层PDF技术的一站式全文检索的优势比较明显。首先,明显提高了搜索的效率。其次,在客户查询时,由于是通过访问索引而不需访问数据库进行搜索,减轻了数据库和系统的压力。再者,基于双层PDF技术的搜索的兼容性较强,可以适应不同的操作系统平台,支持多种数据库接口。最后,这种搜索的使用更加方便,用户可通过任意输入检索信息进行搜索。
上一篇:
档案信息化保障体系建设
下一篇:
最新规划!长沙又将新建高铁站!具体位置在……