Skip to content

版面分析

概述

版面分析是一种使用人工智能(AI)技术来解析和理解文档版面结构的过程。它旨在从输入的文档中提取有关文本、图像、表格、图层等内容的数据。

在 ComPDFKit Conversion SDK 中,版面分析常用的使用场景包括:

  • 智能识别 PDF 文档中的表格:公司财报、发票、银行流水、实验数据、医院检验报告等。
  • 通过版面分析智能提取 PDF 文档中的文本、图像或者表格:卡证、票据、牌照、文件、古籍等文件的分析和提取。

以下是支持版面分析的功能:

  • PDF 转 Word
  • PDF 转 Excel
  • PDF 转 PPT
  • PDF 转 HTML
  • PDF 提取表格

注意事项

  • 使用版面分析功能之前需要先集成 OCR 库。
  • 当开启 OCR 功能时,版面分析会自动启用。

示例

此示例演示了如何在 PDF 文档上使用 ComPDFKit Conversion SDK 的 版面分析功能,将 PDF 文档转换为 Word 文档。

c#
string inputFilePath = "***";
string outputFolderPath = "***";
string outputFileName = "***";

CPDFConverterWord converter = CPDFConvertFactroy.CreateConverter(CPDFConvertType.CPDFConvertTypeWord, inputFilePath) as CPDFConverterWord;
CPDFConvertWordOptions wordOptions = new CPDFConvertWordOptions();
wordOptions.IsAILayoutAnalysis = true;
wordOptions.IsContainAnnotations = true;
wordOptions.IsContainImages = true;
wordOptions.LayoutOpts = LayoutOptions.RetainPageLayout;

int pageCount = converter.GetPagesCount();
int[] pageArray = new int[pageCount];
for (int i = 0; i < pageArray.Length; i++)
{
    pageArray[i] = i + 1;
}

ConvertError error = ConvertError.ERR_UNKNOWN;
converter.Convert(outputFolderPath, ref outputFileName, wordOptions, pageArray, ref error, getPorgress);