本页内容
PDF 转 TXT
概述
当需要将 PDF 文件中的文本内容提取出来,以便进行后续的数据分析、文本挖掘、信息检索等应用。使用 ComPDFKit Conversion SDK 可以轻松将 PDF 中的文本内容提取到 .txt 文件中。
注意事项
- PDF 中旋转的文字会被忽略。
示例
以下是完整的示例代码,演示了如何将 PDF 文档转换为 .txt 文件。
c#
string inputFilePath = "***";
string outputFolderPath = "***";
string outputFileName = "***";
CPDFConverterTxt converter = CPDFConvertFactroy.CreateConverter(CPDFConvertType.CPDFConvertTypeTxt, inputFilePath) as CPDFConverterTxt;
CPDFConvertTxtOptions txtOptions = new CPDFConvertTxtOptions();
txtOptions.IsAllowOCR = false;
int pageCount = converter.GetPagesCount();
int[] pageArray = new int[pageCount];
for (int i = 0; i < pageArray.Length; i++)
{
pageArray[i] = i + 1;
}
ConvertError error = ConvertError.ERR_UNKNOWN;
converter.Convert(outputFolderPath, ref outputFileName,txtOptions, pageArray, ref error, getPorgress);