AWS新功能 – 使用适用于 IDP 的 Amazon Comprehend 处理 PDF、Word 文档和图像_文章 - IT精选 - IT行业资讯与信息网

AWS新功能 – 使用适用于 IDP 的 Amazon Comprehend 处理 PDF、Word 文档和图像

近日，亚马逊宣布推出一项适用于智能文档处理（IDP）的全新 Amazon Comprehend 功能。

软件系统 AWS

2023-01-04 07:20:20 | 作者：Marcia | 来源：转载亚马逊AWS官方博客

AWS新功能 – 使用适用于 IDP 的 Amazon Comprehend 处理 PDF、Word 文档和图像

近日，亚马逊宣布推出一项适用于智能文档处理（IDP）的全新 Amazon Comprehend 功能。

软件系统 AWS

2023-01-04 07:20:20
作者：Marcia
来源：转载亚马逊AWS官方博客

近日，亚马逊宣布推出一项适用于智能文档处理（IDP）的全新 Amazon Comprehend 功能。借助此功能，用户可以直接通过 Amazon Comprehend 对 PDF 文档、Microsoft Word 文件和图像中的实体进行分类和提取，而无需先提取文本。

许多客户需要处理半结构化格式的文档，例如，扫描的收据图像或 PDF 格式的税务报表。直到目前，这些客户首先需要使用光学字符识别（OCR）工具对这些文档进行预处理，以提取文本。然后，他们可以使用 Amazon Comprehend 对这些预处理文件中的实体进行分类和提取。

现在，借助适用于 IDP 的 Amazon Comprehend，客户只需进行一次 API 调用即可处理半结构化文档（例如 PDF、docx、PNG、JPG 或 TIFF 图像），以及纯文本文档。这项新功能结合了 OCR 和 Amazon Comprehend 的现有自然语言处理（NLP）功能，可对文档中的实体进行分类和提取。通过自定义文档分类 API，可以按多种类别来整理文档；通过自定义命名的实体识别 API，可以提取文档中的实体，例如产品代码或特定于业务的实体。例如，保险公司现在可以用更少的 API 调用处理经过扫描的客户理赔单据。使用 Amazon Comprehend 实体识别 API，他们可以提取理赔单据中的客户编号，然后使用自定义分类器 API 将理赔分为不同的保险类别，如房屋保险、汽车保险或人身保险。

从今天开始，适用于 IDP 的 Amazon Comprehend API 可用于文件的实时推理，以及大型文档集的异步批处理。此功能可简化文档处理管道并减少开发工作。

您可以通过 AWS 管理控制台、AWS 软件开发工具包或 AWS 命令行界面（CLI）使用适用于 IDP 的 Amazon Comprehend。

在此演示中，您将看到如何使用自定义分类器异步处理半结构化文件。在提取实体方面，步骤有所不同，您可以查看相关文档，了解具体操作步骤。

要使用分类器处理文件，首先需要训练自定义分类器。您可以按照 Amazon Comprehend 开发人员指南中的步骤进行操作。您需要用纯文本数据训练该分类器。

训练自定义分类器后，可以使用异步或同步操作对文档进行分类。要使用同步操作分析单个文档，需要创建一个端点以使用自定义模型运行实时分析。您可以在文档中找到有关实时分析的更多信息。在此演示中，您将使用异步操作，将要分类的文档放入 Amazon Simple Storage Service（Amazon S3）存储桶中，然后运行分析批处理作业。

要开始从控制台对文档进行批量分类，请在 Amazon Comprehend 页面上，转到 Analysis jobs（分析作业），然后转到 Create job（创建作业）。

然后，您可以配置新的分析作业。首先，输入名称，并选择 Custom classification（自定义分类）和您之前创建的自定义分类器。

然后，您可以配置输入数据。首先，选择用于存储这些数据的 S3 位置。在该位置，可以放置 PDF、图像和 Word 文档。由于您要处理的是半结构化文档，因此需要选择 One document per file（每种文件一个文档）。如果要覆盖 Amazon Comprehend 的文档提取和解析设置，可以配置 Advanced document input（高级文档输入）选项。

配置输入数据后，您可以选择此分析的输出应存储在哪个位置。此外，还需要为该分析作业授予访问权限，以便在指定的 Amazon S3 位置进行读取和写入，之后就可以创建作业了。

作业需要几分钟才能执行完毕，具体取决于输入的大小。作业准备就绪后，您可以检查输出结果。您可以在创建作业时指定的 Amazon S3 位置找到结果。

在结果文件夹中，您将发现 Amazon Comprehend 分类的每个半结构化文件都有一个 .out 文件。.out 文件是一个 JSON 文件，其中每一行表示文档的一页。在 amazon-textract-output 目录中，您将发现每个分类文件都有一个文件夹，在该文件夹中，原始文件的每一页都对应一个文件。这些页文件包含分类结果。

要开始从控制台对文档进行批量分类，请在 Amazon Comprehend 页面上，转到 Analysis jobs（分析作业），然后转到 Create job（创建作业）。

	苹果iPadOS 16正式版发布
	小米配合打击热更新违规产品，应用商店宣布停止清理类应用收录
	苹果发布2022款iPad Pro 配备M2芯片、悬停式Apple Pencil功能等
	iPhone15 Pro将大幅提高配置
	苹果正式允许iOS发行NFT
	腾讯ROG游戏手机6蝙蝠侠典藏限量版上市
	亚马逊发布2022年款Fire HD 8系列平板电脑
	5G来临！北京联通携手华为完成首个千站级MetaAAU部署
	可编辑视频消息的手机QQ iOS版：8.9.5更新发布
	三星新款旗舰SSD 990 Pro开启预售

AWS新功能 – 使用适用于 IDP 的 Amazon Comprehend 处理 PDF、Word 文档和图像

AWS新功能 – 使用适用于 IDP 的 Amazon Comprehend 处理 PDF、Word 文档和图像

热点

商情 查看更多…

AWS新功能 – 使用适用于 IDP 的 Amazon Comprehend 处理 PDF、Word 文档和图像

AWS新功能 – 使用适用于 IDP 的 Amazon Comprehend 处理 PDF、Word 文档和图像

热点

商情 查看更多…

商情查看更多…