Skip to content

PDF 转 Excel

概述

ComPDFKit Conversion SDK 支持将 PDF文档转换为 Microsoft Excel 格式(.xlsx)。通过从 PDF 中提取、解析数据并将其导入 Excel 以方便用户进一步编辑、分析或共享 Excel 文件。此功能有助于提高工作效率,减少手动输入错误并简化复杂的文档处理任务。

设置 Excel 文件内容选项

将 PDF 文件转换为 Excel 文件时需要注意以下两个选项的设置,它将直接影响写入 Excel 文件的内容。

  • 内容选项:

如果设置ContentOptions.OnlyText选项,则只会将文本内容写入 Excel 文件而不包含表格内容。

  • 工作表选项:
选项描述
WorksheetOptions.ForEachTable一个表格对应一个 sheet 文件。
WorksheetOptions.ForEachPage一个 PDF 页面对应一个 sheet 文件。
WorksheetOptions.ForTheDocument整个 PDF 文档对应一个 sheet 文件。

注意事项

  • 为了得到更好的转换效果,建议开启 OCR 或者版面分析选项。
  • 当开启 OCR 选项时,IsContainOCRBgImage将为无效选项。

示例

以下是完整的示例代码,演示了如何将 PDF 文档转换为 Excel 文档。

c#
string inputFilePath = "***";
string outputFolderPath = "***";
string outputFileName = "***";

CPDFConvertExcelOptions excelOptions = new CPDFConvertExcelOptions();
excelOptions.WorksheetOpts = WorksheetOptions.ForEachPage;
excelOptions.ContentOpts = ContentOptions.AllContent;
excelOptions.IsAllowOCR = false;
excelOptions.IsContainAnnotations = true;
excelOptions.IsContainImages = true;

CPDFConverterExcel converter = CPDFConvertFactroy.CreateConverter(CPDFConvertType.CPDFConvertTypeExcel, inputFilePath) as CPDFConverterExcel;

int pageCount = converter.GetPagesCount();
int[] pageArray = new int[pageCount];
for (int i = 0; i < pageArray.Length; i++)
{
    pageArray[i] = i + 1;
}

ConvertError error = ConvertError.ERR_UNKNOWN;
converter.Convert(outputFolderPath, ref outputFileName, excelOptions, pageArray, ref error, getPorgress);