pdf读取文件内容|我想用PHP读取PDF文件的内容尤其是现在很多的扫描后转为PDF的文件请问怎么读-山九号

㈠如何样用pdflib库读取pdf文件内的内容

文件都是有头有尾的，会表示文件的格式、大小等信息。

㈡ PDF格式的文档如何读取

如何把Adobe Acrobat 的PDF格式的文档转为Word能够读取、编辑的文档。对于这个问题，不少用户存在两种误解。一是认为Adobe Acrobat PDF文档是图形格式，无法被Word读取; 二是认为虽然PDF也包含文字代码信息，但Word没有相应的PDF格式转换器，所以无法读取。本文将向您介绍如何把PDF文档读入Word。了解PDF文档 —- PDF文档到底是什么？ —- PDF是出版和图形领域的软件厂商Adobe制定的电子文档格式标准。Adobe为之提供了免费的文档浏览器–Adobe Acrobat Reader以及相应的编辑软件–Adobe Acrobat，后者可以对PDF文档中页面的组织、链接进行编辑，对文档进行批注等等。而Adobe的另外一款软件–Illustrator则可以从各个细致入微处修整PDF文件。与普通格式的电子文档(如纯文本、超文本、RTF格式以及Word文档等)相比，PDF文档具有能够完善保持版面样式、跨平台等优越性，所以国外许多组织机构在发放无需再次编辑的文件时通常选择使用PDF格式。在我国，许多电子书籍也开始采用PDF格式。 —- 创建PDF文件的典型方法并不是使用Illustrator等软件来编辑，而是先用普通的文字处理和桌面排版软件如Word、WordPerfect和PageMaker等编排好文档，然后通过Adobe的PDF Distiller或者PDF Writer等仿打印机引擎制作PDF文件。另外也有一些PDF文档是直接使用Adobe Acrobat配合扫描仪将原书稿扫描制作完成的，虽然该软件配有支持对多种西方文字进行光学字符识别(OCR)的插件，但是为了保证文字的可靠性，多数情况下采用这种方法制作的PDF文件没有进行字符识别。 —- 从以上的介绍我们可以看出，PDF文件中的文字存在两种可能性: 其一，可能是以计算机字符代码的形式被包裹在文件中; 其二，也可能只是一个页面图像中的像素组成的线条，没有字符代码信息。很明显，只有第一种PDF文档可以通过Word打开和编辑。让Word读取PDF文档 —- 下面我们就来看一下如何让Word读取包含字符信息的PDF文档。由于Adobe公司在2000年就发布了4.x版本的Acrobat Reader，比以往的版本功能有所增强，所以我们就以这个版本为例来讨论。 —- 实际上，Word至今也没有PDF文档的转换器，因而无法对其直接读取。我们采用的还是"剪刀+浆糊"的办法。 —- 1．拷贝文字 —- 通常情况下，如果需要拷贝PDF中某一页面上的所有文字，您可以进行如下操作。定位页面。单击工具栏上的"Text Select Tool"按钮。选择"Edit"*"Select All"，再选择"Copy"(如图1所示)。切换到Word，按"粘贴"按钮(或Ctrl＋v)把内容贴到Word文档中。 — 如果需要拷贝的是整篇PDF文档，则可以按照下面的步骤进行。打开PDF文件后，选择"View"*"Continuous"(如图2所示)。选择"Edit"*"Select All"。拷贝选中的内容。切换到Word，粘贴内容。 —- 使用这种方法拷贝到Word文档中的文字会保持基本的字符格式，比如粗体、斜体、字符大小等等，但是不会具有样式等方面的设置。对于较复杂的文档，可能需要耐心进行调整。 —- 2．拷贝图片 —- 如果需要拷贝PDF文档中的图片，首先要找出一个隐藏的工具按钮"Graphics Select Tool"。具体办法如下。 —- （1）按下"Text Select Tool"按钮，不要松开鼠标左键，该按钮会向右延展，显示出额外的几个按钮(如图3所示)。根据按钮的文字提示，选择正确的按钮(熟悉Photoshop、CorelDraw等绘图软件的用户对于这种一钮多用的情况并不陌生)。 —- （2）把鼠标指针移到PDF页面上，此时指针呈十字形。拖动选择好图片区域，拷贝。 —- （3）回到Word文档，粘贴即可。 —- 拷贝图片不仅支持拷贝PDF文档中的图片到Word，实际上，我们可以选择任意区域，如文字区、图片区、文字和图片混合区，拷贝后粘贴到Word中，它们都会被当作图片插入到Word文档。 —- 需要注意的是，有的PDF文档由于制作的时候设置了某些安全选项，禁止我们拷贝其内容。如果要了解这方面的设置，可以通过选择"File"*"Document Info"*"Security"查看(如图4所示)。如果其中的"Selecting Text and Graphics"一项被设置为"No"，这时上述拷贝文字和图像方法就不起作用了。此时，惟一的权宜之计就是使用Print Screen键或者其他的抓图软件获取某些PDF文档的画面。

㈢怎样用C/C++读取PDF文件中的内容

文件都是有头有尾的，会表示文件的格式、大小等信息。你单纯的把文件分割，然后保存到.pdf格式的文件中肯定是不行的。还是最好研究一下pdf文件的格式，把格式信息加入文件，应该就可以了。

㈣读取PDF文件内容

这两种都有可能可能是没拷好也有可能本身PDF文档就有问题

㈤ java 如何读取PDF文件内容

import java.io.File;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import java.io.Writer;import java.net.MalformedURLException;import java.net.URL;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.util.PDFTextStripper;public class PdfReader {public void readFdf(String file) throws Exception {// 是否排序boolean sort = false;// pdf文件名String pdfFile = file;// 输入文本文件名称String textFile = null;// 编码方式String encoding = "UTF-8";// 开始提取页数int startPage = 1;// 结束提取页数int endPage = Integer.MAX_VALUE;// 文件输入流，生成文本文件Writer output = null;// 内存中存储的PDF DocumentPDDocument document = null;try {try {// 首先当作一个URL来装载文件，如果得到异常再从本地文件系统//去装载文件URL url = new URL(pdfFile);//注意参数已不是以前版本中的URL.而是File。document = PDDocument.load(pdfFile);// 获取PDF的文件名String fileName = url.getFile();// 以原来PDF的名称来命名新产生的txt文件if (fileName.length() > 4) {File outputFile = new File(fileName.substring(0, fileName.length() – 4)+ ".txt");textFile = outputFile.getName();}} catch (MalformedURLException e) {// 如果作为URL装载得到异常则从文件系统装载//注意参数已不是以前版本中的URL.而是File。document = PDDocument.load(pdfFile);if (pdfFile.length() > 4) {textFile = pdfFile.substring(0, pdfFile.length() – 4)+ ".txt";}}// 文件输入流，写入文件倒textFileoutput = new OutputStreamWriter(new FileOutputStream(textFile),encoding);// PDFTextStripper来提取文本PDFTextStripper stripper = null;stripper = new PDFTextStripper();// 设置是否排序stripper.setSortByPosition(sort);// 设置起始页stripper.setStartPage(startPage);// 设置结束页stripper.setEndPage(endPage);// 调用PDFTextStripper的writeText提取并输出文本stripper.writeText(document, output);} finally {if (output != null) {// 关闭输出流output.close();}if (document != null) {// 关闭PDF Documentdocument.close();}}}/*** @param args*/public static void main(String[] args) {// TODO Auto-generated method stubPdfReader pdfReader = new PdfReader();try {// 取得E盘下的SpringGuide.pdf的内容pdfReader.readFdf("E://SpringGuide.pdf");} catch (Exception e) {e.printStackTrace();}}}

㈥我想用PHP读取PDF文件的内容，尤其是现在很多的扫描后转为PDF的文件，请问怎么读

你可以从网上找一些为PHP语言编写的 pdf 扩展库，数量不少，比如：

PHP的PDF解析库 PdfParser

PdfParser 是一个标版准的 PHP 库提供个用权于从 PDF 文件中抽取数据的工具。它加载 PDF 文件并解析文件中对象、头和元数据，可抽取其中的文本信息，支持压缩的 PDF、MAC OS 罗马字符集编码、8进制和16进制编码。兼容 PSR-0 和 PSR-1。

示例代码：

$document=SmalotPdfParserDocument::parseFile('document.pdf');$pages=$document->getPages();$text=$pages[1]->getText();

PHP官方里也有一个对PDF支持的库：PDFlib，你可以根据自己的需要和喜好来使用。

㈦怎么样用pdflib库读取pdf文件内的内容

PDFlib TET（文本内容提取工具包）是一款可以从任意PDF文档格式中可靠地提取文本信息的软件。它不仅可以作为一种库/控件，还可以一种命令行工具。该工具包可以使得PDF格式的文本内容转换成Unicode（统一的字符编码标准）字符串，并附加详细的字形和字体信息。一旦拥有了TET，你就可以从PDF文档中的文本获取相应的Unicode字符值，以及它在页面的位置。

㈧如何批量提取PDF文件内容

把这些PDF文件的文件名改为有规律的顺序。不用Acrobat，就用你复制、搜索的那个软件。用按键精灵编制脚本，模拟手工操作。然后就能实现自动依次打开PDF文件，自动按固定位置提取内容并自动填入Excel表格。用Acrobat也一样能用按键精灵脚本的办法，区别仅仅在脚本要模拟Acrobat中的操作。总之，模拟的就是处理PDF文件的软件操作，爱是哪个就是哪个。

㈨ C#怎么读取PDF文件内容

引用动态链接库解压缩下载的PDFBox，找到其中的Bin目录，需要在项目中添加引用的dll文件有： IKVM.GNU.Classpath.dllPDFBox-0.7.3.dllFontBox-0.1.0-dev.dllIKVM.Runtime.dll

将以上4个文件引用到项目中，在文件中需要引入以下2个命名空间： using org.pdfbox.pdmodel;using org.pdfbox.util;API的使用方法

usingSystem.IO;usingSystem.Text;usingorg.pdfbox.pdmodel;usingorg.pdfbox.util;namespacePDFReader{classProgram{publicstaticvoidpdf2txt(FileInfopdffile,FileInfotxtfile){PDDocumentdoc=PDDocument.load(pdffile.FullName);PDFTextStripperpdfStripper=newPDFTextStripper();stringtext=pdfStripper.getText(doc);StreamWriterswPdfChange=newStreamWriter(txtfile.FullName,false,Encoding.GetEncoding("gb2312"));swPdfChange.Write(text);swPdfChange.Close();}staticvoidMain(string[]args){pdf2txt(newFileInfo(@"D:1.pdf"),newFileInfo(@"D:1.txt"));}}}

未经允许不得转载：山九号 » pdf读取文件内容|我想用PHP读取PDF文件的内容尤其是现在很多的扫描后转为PDF的文件请问怎么读

pdf读取文件内容|我想用PHP读取PDF文件的内容尤其是现在很多的扫描后转为PDF的文件请问怎么读

㈠如何样用pdflib库读取pdf文件内的内容

㈡ PDF格式的文档如何读取

㈢怎样用C/C++读取PDF文件中的内容

㈣读取PDF文件内容

㈤ java 如何读取PDF文件内容

㈥我想用PHP读取PDF文件的内容，尤其是现在很多的扫描后转为PDF的文件，请问怎么读

㈦怎么样用pdflib库读取pdf文件内的内容

㈧如何批量提取PDF文件内容

㈨ C#怎么读取PDF文件内容

作者：大山

相关推荐

展示

最新文章

㈠ 如何样用pdflib库读取pdf文件内的内容

㈡ PDF格式的文档如何读取

㈢ 怎样用C/C++读取PDF文件中的内容

㈣ 读取PDF文件内容

㈤ java 如何读取PDF文件内容

㈥ 我想用PHP读取PDF文件的内容，尤其是现在很多的扫描后转为PDF的文件，请问怎么读

㈦ 怎么样用pdflib库读取pdf文件内的内容

㈧ 如何批量提取PDF文件内容

㈨ C#怎么读取PDF文件内容

作者：大山

相关推荐

展示

最新文章

㈠如何样用pdflib库读取pdf文件内的内容

㈢怎样用C/C++读取PDF文件中的内容

㈣读取PDF文件内容

㈥我想用PHP读取PDF文件的内容，尤其是现在很多的扫描后转为PDF的文件，请问怎么读

㈦怎么样用pdflib库读取pdf文件内的内容

㈧如何批量提取PDF文件内容