65.9K
CodeProject 正在变化。 阅读更多。
Home

使用 LEADTOOLS 实现标准化的 PDF/A 文档存储系统

emptyStarIconemptyStarIconemptyStarIconemptyStarIconemptyStarIcon

0/5 (0投票)

2014年3月1日

CPOL

7分钟阅读

viewsIcon

20741

本白皮书将探讨如何通过利用 LEADTOOLS 文档成像 SDK 的尖端技术,充分发挥 PDF/A 作为通用文档存储格式的优势。

引言

电子文档存档已经远远超出了简单地扫描纸质文档并将其保存为图像或 PDF 的时代。如今,许多文档甚至不是以物理形式开始的,它们可能是多种开放式或专有格式之一。导致文件格式差异的原因还在于文件的存储方式和位置。许多企业将其文档分散存储在各种“数据孤岛”中,包括本地计算机、网络文件共享和云服务。最后,移动设备和平板电脑的普及,它们可能支持也可能不支持某些格式,进一步加剧了对标准化文档存档的需求。

公司依靠信息运转,随着数字档案的规模和多样性不断增长,在其中高效准确地查找数据的能力往往跟不上。PDF/A 就是为此而设计的,但迁移所有各种文件格式仍然是一个挑战,因为像 TIFF 和 JPEG 这样的光栅图像格式除了文件名之外,几乎没有或根本没有可搜索的特性。本白皮书将探讨如何通过利用 LEADTOOLS 文档成像 SDK 中的尖端技术,充分发挥 PDF/A 作为通用文档存储格式的优势。

使用 PDF/A 创建可搜索的文档档案

多年来,PDF 一直被广泛认可并采纳为文档存档、内容管理、记录保存、风险管理、诉讼和证据开示的最佳格式。特别是 PDF/A 子格式,它更是专为存档和未来兼容性而设计。PDF/A 完全自包含,并将字体、颜色管理、注释、图像等存储在文件本身中。这确保了文档在操作系统、设备、显示器和默认字体不断变化的环境中,其外观多年来保持不变。

规范化您的档案将为存储分配、生产力和成本带来诸多好处。由于 PDF 是一种被广泛支持的格式,查找和查看文档的问题得到了极大的缓解。选择 PDF/A 作为您唯一的文档存档格式无疑是明智的,但这只解决了整体问题的一小部分。尚未解决的问题是将分散的档案进行转换,并确保所有进一步的存储都以统一的方式进行。

少数应用程序和扫描仪本身就支持另存为 PDF 的功能,但这可能是不必要且成本高昂的。此外,文档可能来自组织内部和外部的许多来源,因此在某种程度上您的文档必须经过处理和转换。如果没有设计良好且自动化的流程,规范化档案的好处将难以充分实现。因此,许多组织由于在正确纠正和维护其设想中的新文档存储系统方面存在挑战,而避免全面数字化。因此,他们知道需要改变,但又不知道如何以整体且经济高效的方式实现其目标,从而感到陷入困境。

通过 LEADTOOLS 文档成像 SDK 实现这一切

如果以上情况部分或全部似曾相识,那么 LEADTOOLS 就是您的不二之选。其文档成像 SDK 涵盖了创建通用 PDF/A 文档档案所需的全部成像技术。

完整的 PDF 和 PDF/A 文件格式支持

LEADTOOLS 提供对 PDF 格式的完全控制,包括提取文本、超链接、书签和元数据的高级功能,以及更新、拆分和合并现有 PDF 文档的页面。凭借 LEAD Technologies 在图像压缩方面数十年的专业知识,其 PDF SDK 还提供了行业内性能最佳、最多样化的 PDF 压缩选项,包括 JBIG、JPEG2000 和混合光栅内容。此外,还包括在类似商业 SDK 中通常难以找到的功能,例如读取、显示、编辑和写入与 Adobe Acrobat 和其他兼容的 PDF 查看器无缝集成本地 PDF 注释和标记。

LEADTOOLS 将为您提供非凡的存档系统机会,并将所有决策权和定制权掌握在您手中,而不再受 PDF 文件格式和昂贵的 PDF 编辑功能之害。

光学字符识别 (OCR) 和转换

LEADTOOLS 可以轻松解决将现有的混合文件格式档案迁移到统一的 PDF/A 档案的问题。它能够加载、保存和转换超过 150 种光栅、矢量和文档文件格式,您可以放心,所有格式都能得到支持。

由于并非所有格式都基于文本且可搜索,LEADTOOLS 可以利用其快速且高度准确的光学字符识别技术,将这些图像转换为可搜索的 PDF/A。LEADTOOLS 中的高级 OCR SDK 支持包括英语、西班牙语、法语、德语、日语、中文、阿拉伯语等四十多种语言和字符集,是全球范围内为多个国家提供服务的大型企业的可靠解决方案。

大多数基于文本的 PDF 文件的大小通常比其转换的原始光栅图像要小。而且,所有这些都可以通过短短三行代码完成。

IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Advantage, false);
ocrEngine.Startup(null, null, null, null);
ocrEngine.AutoRecognizeManager.Run(_strInputFile, _strOutputFile, DocumentFormat.Pdf, null, null);

虚拟打印

几乎所有应用程序都有一个共同点,那就是打印功能。毕竟,文档存档的需求就源于此。LEADTOOLS 虚拟打印机可以直接从一开始就完成工作,而无需先将文档打印到纸张,然后再使用扫描仪和 OCR 将其转换回可搜索的数字媒介。

这种方法不仅处理您通常会打印的文档,还允许您存档许多其他信息源,包括电子邮件、传真、网站、社交媒体以及几乎任何文件格式。作为一项额外的好处,您打印的大多数文档和材料都是文本形式的,这意味着生成的 PDF 将是可搜索的,并且不需要特殊处理,并且与原始文档 100% 准确。

DocumentWriter _documentWriter;

public void _printer_EmfEvent(object sender, EmfEventArgs e)
{
   // Create a new document page and pass the EMF in e.Stream
   DocumentPage documentPage = DocumentPage.Empty;
   documentPage.EmfHandle = new Metafile(e.Stream).GetHenhmetafile();

   // Load EMF as raster for image over text
   e.Stream.Position = 0;
   documentPage.Image = _codec.Load(e.Stream);

   // Add the page
   _documentWriter.AddPage(documentPage);
}

public void _printer_JobEvent(object sender, JobEventArgs e)
{
   if (e.JobEventState == EventState.JobStart)
   {
      // Initialize DocumentWriter
      PdfDocumentOptions pdfOptions = new PdfDocumentOptions();
      pdfOptions.DocumentType = PdfDocumentType.PdfA;
      pdfOptions.FontEmbedMode = DocumentFontEmbedMode.Auto;
      pdfOptions.ImageOverText = true;

      _documentWriter = new DocumentWriter();
      _documentWriter.SetOptions(DocumentFormat.Pdf, pdfOptions);
      _documentWriter.BeginDocument(_pdfFileName, DocumentFormat.Pdf);
   }
   else if (e.JobEventState == EventState.JobEnd)
   {
      // Add fonts and end the document
      AddAndInstallFonts(e.JobID);
      _documentWriter.EndDocument();
            
      // Load PDF
      System.Diagnostics.Process.Start(_pdfFileName);
   }
}

最后,LEADTOOLS 虚拟打印机还可以配置为在服务器上运行,并通过 Internet 打印协议 (IPP) 在公司局域网或 Web 上访问。这种灵活性使得虚拟打印成为维护您存档的绝佳解决方案,它提供了一个大型的入口,几乎任何信息都可以通过它打印,然后通过集中的业务工作流程自动存档。

HTML5 零客户端查看器

仅仅因为您将文档保存为 PDF,并不意味着您无法受益于查看器。虽然 PDF 被广泛采用,很少有人会想到有人无法加载它,但在大多数情况下仍然需要插件和查看应用程序。通过使用 LEADTOOLS 中的基于 HTML5 和 JavaScript 的查看器,您可以构建一个真正的基于云的图像查看解决方案,无需插件或下载。所有繁重的图像处理和显示都在客户端完成,从而提供快速的显示时间和响应式的用户界面。

结论

借助 LEADTOOLS,将文档存储标准化为 PDF/A 不再是一项艰巨、复杂且昂贵的任务。您需要的所有工具,包括转换现有文件、管理和规范化 PDF 以及创建全方位的业务工作流程,都包含在面向多个平台的、程序员友好的库中。您可以高枕无忧,因为您公司赖以高效 productive 运作的所有信息都将得到妥善存档并易于访问。

下载完整的 PDF/A、OCR 和虚拟打印示例

您可以下载包含上述功能的完整功能演示。要运行此示例,您需要以下条件:

  • LEADTOOLS 免费 60 天试用版
  • Visual Studio 2008 或更高版本
  • 浏览至 LEADTOOLS 示例文件夹(例如:C:\LEADTOOLS 18\Examples\),在那里您可以找到此示例以及 LEADTOOLS 中更多技术的示例项目。

支持

需要帮助来启动和运行此示例? 联系我们的支持团队 免费获得技术支持!有关定价或许可问题,您可以联系我们的销售团队(sales@leadtools.com)或致电我们:704-332-5532

© . All rights reserved.