源码网商城,靠谱的源码在线交易网站 我的订单 购物车 帮助

源码网商城

c#实现将pdf转文本的示例分享

  • 时间:2022-07-05 23:16 编辑: 来源: 阅读:
  • 扫一扫,手机访问
摘要:c#实现将pdf转文本的示例分享
[b]如何解析PDF文件 [/b]在.NET中从PDF文件里提取文本的几种主要方法有: 1、Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 实现; 2、iTextSharp; 3、PDFBox。 不幸的是这些 PDF 解析方案都不完美。我们将在下面讨论这些方法。 Adobe PDF IFilter 为了使用 IFilter 接口来解析 PDF 文件,你需要: Windows 2000 或者后续版本 Adobe Acrobat 或 Reader 7.0.5+ (或单独的 Adobe PDF IFilter [adobe.com]) IFilter COM 封装类 [dotlucene.net] 样例代码:
[u]复制代码[/u] 代码如下:
using IFilter; public static string ExtractTextFromPdf(string path) {   return DefaultParser.Extract(path); }
缺点: 使用了不可靠的 COM 互操作来处理 IFilter 接口 (并且组合 IFilter COM、 Adobe PDF IFilter 特别麻烦)。 需要在目标系统上单独安装 Adobe IFilter。如果你需要对其它人发布可索引的解决方案,会很痛苦。 iTextSharp iTextSharp(http://sourceforge.net/projects/itextsharp/) 是一个 Java 的PDF 操作库iText(http://itextpdf.com/) 的.NET输出。它主要着眼于编辑PDF而不是阅读,但它当然也支持从PDF中提取文本(尽管有点大材小用)。 例程:
[u]复制代码[/u] 代码如下:
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser;  public static string ExtractTextFromPdf(string path) {   using (PdfReader reader = new PdfReader(path))   {     StringBuilder text = new StringBuilder();     for (int i = 1; i <= reader.NumberOfPages; i++)     {         text.Append(PdfTextExtractor.GetTextFromPage(reader, i));     }     return text.ToString();   } }
信用证: 成员号 10364982 缺点: 需要许可证(如果你不喜欢 AGPL许可证 的话) [b]PDFBox [/b]PDFBox是另一个Java PDF类库。它同时也可以与原来的Java Lucene一同使用(参见LucenePDFDocument)。 幸运的是,PDFBox有一个使用IKVM.NET开发的.NET版本 (只需访问PDFBox下载页)。 在.NET中使用PDFBox需要引用: IKVM.OpenJDK.Core.dll IKVM.OpenJDK.SwingAWT.dll pdfbox-1.8.4.dll 并将下列文件复制到bin文件夹下: commons-logging.dll fontbox-1.8.4.dll IKVM.OpenJDK.Util.dll IKVM.Runtime.dll 使用PDFBox解析PDF十分简单:
[u]复制代码[/u] 代码如下:
using org.apache.pdfbox.pdmodel; using org.apache.pdfbox.util;  private static string ExtractTextFromPdf(string path) {   PDDocument doc = null;   try {     doc = PDDocument.load(path)     PDFTextStripper stripper = new PDFTextStripper();     return stripper.getText(doc);   }   finally {     if (doc != null) {       doc.close();     }   } }
编译后的大小加起来差不多有18MB: IKVM.OpenJDK.Core.dll (4 MB) IKVM.OpenJDK.SwingAWT.dll (6 MB) pdfbox-1.8.4.dll (4 MB) commons-logging.dll (82 kB) fontbox-1.8.4.dll (180 kB) IKVM.OpenJDK.Util.dll (2 MB) IKVM.Runtime.dll (1 MB) 速度还可以:解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。 感谢bobrien100提供的改进建议。 缺点: IKVM.NET依赖 (18 MB) 速度(尤其是IKVM.NET的启动时间)
  • 全部评论(0)
联系客服
客服电话:
400-000-3129
微信版

扫一扫进微信版
返回顶部