AWS新功能 – 使用适用于 IDP 的 Amazon Comprehend 处理 PDF、Word 文档和图像

近日,亚马逊宣布推出一项适用于智能文档处理(IDP)的全新 Amazon Comprehend 功能。
软件系统 AWS
2023-01-04 07:20:20  |   作者:Marcia  |   来源:转载 亚马逊AWS官方博客

AWS新功能 – 使用适用于 IDP 的 Amazon Comprehend 处理 PDF、Word 文档和图像

近日,亚马逊宣布推出一项适用于智能文档处理(IDP)的全新 Amazon Comprehend 功能。
软件系统 AWS
2023-01-04 07:20:20
作者:Marcia
来源:转载 亚马逊AWS官方博客

近日,亚马逊宣布推出一项适用于智能文档处理(IDP)的全新 Amazon Comprehend 功能。借助此功能,用户可以直接通过 Amazon Comprehend 对 PDF 文档、Microsoft Word 文件和图像中的实体进行分类和提取,而无需先提取文本。

许多客户需要处理半结构化格式的文档,例如,扫描的收据图像或 PDF 格式的税务报表。直到目前,这些客户首先需要使用光学字符识别(OCR)工具对这些文档进行预处理,以提取文本。然后,他们可以使用 Amazon Comprehend 对这些预处理文件中的实体进行分类和提取。

现在,借助适用于 IDP 的 Amazon Comprehend,客户只需进行一次 API 调用即可处理半结构化文档(例如 PDF、docx、PNG、JPG 或 TIFF 图像),以及纯文本文档。这项新功能结合了 OCR 和 Amazon Comprehend 的现有自然语言处理(NLP)功能,可对文档中的实体进行分类和提取。通过自定义文档分类 API,可以按多种类别来整理文档;通过自定义命名的实体识别 API,可以提取文档中的实体,例如产品代码或特定于业务的实体。例如,保险公司现在可以用更少的 API 调用处理经过扫描的客户理赔单据。使用 Amazon Comprehend 实体识别 API,他们可以提取理赔单据中的客户编号,然后使用自定义分类器 API 将理赔分为不同的保险类别,如房屋保险、汽车保险或人身保险。

从今天开始,适用于 IDP 的 Amazon Comprehend API 可用于文件的实时推理,以及大型文档集的异步批处理。此功能可简化文档处理管道并减少开发工作。

您可以通过 AWS 管理控制台、AWS 软件开发工具包或 AWS 命令行界面(CLI)使用适用于 IDP 的 Amazon Comprehend。

在此演示中,您将看到如何使用自定义分类器异步处理半结构化文件。在提取实体方面,步骤有所不同,您可以查看相关文档,了解具体操作步骤。

要使用分类器处理文件,首先需要训练自定义分类器。您可以按照 Amazon Comprehend 开发人员指南中的步骤进行操作。您需要用纯文本数据训练该分类器。

训练自定义分类器后,可以使用异步或同步操作对文档进行分类。要使用同步操作分析单个文档,需要创建一个端点以使用自定义模型运行实时分析。您可以在文档中找到有关实时分析的更多信息。在此演示中,您将使用异步操作,将要分类的文档放入 Amazon Simple Storage Service(Amazon S3)存储桶中,然后运行分析批处理作业。

要开始从控制台对文档进行批量分类,请在 Amazon Comprehend 页面上,转到 Analysis jobs(分析作业),然后转到 Create job(创建作业)。

然后,您可以配置新的分析作业。首先,输入名称,并选择 Custom classification(自定义分类)和您之前创建的自定义分类器。

20230104-3.png

然后,您可以配置输入数据。首先,选择用于存储这些数据的 S3 位置。在该位置,可以放置 PDF、图像和 Word 文档。由于您要处理的是半结构化文档,因此需要选择 One document per file(每种文件一个文档)。如果要覆盖 Amazon Comprehend 的文档提取和解析设置,可以配置 Advanced document input(高级文档输入)选项。

配置输入数据后,您可以选择此分析的输出应存储在哪个位置。此外,还需要为该分析作业授予访问权限,以便在指定的 Amazon S3 位置进行读取和写入,之后就可以创建作业了。

作业需要几分钟才能执行完毕,具体取决于输入的大小。作业准备就绪后,您可以检查输出结果。您可以在创建作业时指定的 Amazon S3 位置找到结果。

在结果文件夹中,您将发现 Amazon Comprehend 分类的每个半结构化文件都有一个 .out 文件。.out 文件是一个 JSON 文件,其中每一行表示文档的一页。在 amazon-textract-output 目录中,您将发现每个分类文件都有一个文件夹,在该文件夹中,原始文件的每一页都对应一个文件。这些页文件包含分类结果。

要开始从控制台对文档进行批量分类,请在 Amazon Comprehend 页面上,转到 Analysis jobs(分析作业),然后转到 Create job(创建作业)。