㈠ 如何样用pdflib库读取pdf文件内的内容
文件都是有头有尾的,会表示文件的格式、大小等信息。
㈡ PDF格式的文档如何读取
如何把Adobe Acrobat 的PDF格式的文档转为Word能够读取、编辑的文档。对于这个问题,不少用户存在两种误解。一是认为Adobe Acrobat PDF文档是图形格式,无法被Word读取; 二是认为虽然PDF也包含文字代码信息,但Word没有相应的PDF格式转换器,所以无法读取。本文将向您介绍如何把PDF文档读入Word。 了解PDF文档 —- PDF文档到底是什么? —- PDF是出版和图形领域的软件厂商Adobe制定的电子文档格式标准。Adobe为之提供了免费的文档浏览器–Adobe Acrobat Reader以及相应的编辑软件–Adobe Acrobat,后者可以对PDF文档中页面的组织、链接进行编辑,对文档进行批注等等。而Adobe的另外一款软件–Illustrator则可以从各个细致入微处修整PDF文件。与普通格式的电子文档(如纯文本、超文本、RTF格式以及Word文档等)相比,PDF文档具有能够完善保持版面样式、跨平台等优越性,所以国外许多组织机构在发放无需再次编辑的文件时通常选择使用PDF格式。在我国,许多电子书籍也开始采用PDF格式。 —- 创建PDF文件的典型方法并不是使用Illustrator等软件来编辑,而是先用普通的文字处理和桌面排版软件如Word、WordPerfect和PageMaker等编排好文档,然后通过Adobe的PDF Distiller或者PDF Writer等仿打印机引擎制作PDF文件。另外也有一些PDF文档是直接使用Adobe Acrobat配合扫描仪将原书稿扫描制作完成的,虽然该软件配有支持对多种西方文字进行光学字符识别(OCR)的插件,但是为了保证文字的可靠性,多数情况下采用这种方法制作的PDF文件没有进行字符识别。 —- 从以上的介绍我们可以看出,PDF文件中的文字存在两种可能性: 其一,可能是以计算机字符代码的形式被包裹在文件中; 其二,也可能只是一个页面图像中的像素组成的线条,没有字符代码信息。很明显,只有第一种PDF文档可以通过Word打开和编辑。 让Word读取PDF文档 —- 下面我们就来看一下如何让Word读取包含字符信息的PDF文档。由于Adobe公司在2000年就发布了4.x版本的Acrobat Reader,比以往的版本功能有所增强,所以我们就以这个版本为例来讨论。 —- 实际上,Word至今也没有PDF文档的转换器,因而无法对其直接读取。我们采用的还是"剪刀+浆糊"的办法。 —- 1.拷贝文字 —- 通常情况下,如果需要拷贝PDF中某一页面上的所有文字,您可以进行如下操作。 定位页面。 单击工具栏上的"Text Select Tool"按钮。 选择"Edit"*"Select All",再选择"Copy"(如图1所示)。 切换到Word,按"粘贴"按钮(或Ctrl+v)把内容贴到Word文档中。 — 如果需要拷贝的是整篇PDF文档,则可以按照下面的步骤进行。 打开PDF文件后,选择"View"*"Continuous"(如图2所示)。 选择"Edit"*"Select All"。 拷贝选中的内容。 切换到Word,粘贴内容。 —- 使用这种方法拷贝到Word文档中的文字会保持基本的字符格式,比如粗体、斜体、字符大小等等,但是不会具有样式等方面的设置。对于较复杂的文档,可能需要耐心进行调整。 —- 2.拷贝图片 —- 如果需要拷贝PDF文档中的图片,首先要找出一个隐藏的工具按钮"Graphics Select Tool"。具体办法如下。 —- (1)按下"Text Select Tool"按钮,不要松开鼠标左键,该按钮会向右延展,显示出额外的几个按钮(如图3所示)。根据按钮的文字提示,选择正确的按钮(熟悉Photoshop、CorelDraw等绘图软件的用户对于这种一钮多用的情况并不陌生)。 —- (2)把鼠标指针移到PDF页面上,此时指针呈十字形。拖动选择好图片区域,拷贝。 —- (3)回到Word文档,粘贴即可。 —- 拷贝图片不仅支持拷贝PDF文档中的图片到Word,实际上,我们可以选择任意区域,如文字区、图片区、文字和图片混合区,拷贝后粘贴到Word中,它们都会被当作图片插入到Word文档。 —- 需要注意的是,有的PDF文档由于制作的时候设置了某些安全选项,禁止我们拷贝其内容。如果要了解这方面的设置,可以通过选择"File"*"Document Info"*"Security"查看(如图4所示)。如果其中的"Selecting Text and Graphics"一项被设置为"No",这时上述拷贝文字和图像方法就不起作用了。此时,惟一的权宜之计就是使用Print Screen键或者其他的抓图软件获取某些PDF文档的画面。
㈢ 怎样用C/C++读取PDF文件中的内容
文件都是有头有尾的,会表示文件的格式、大小等信息。你单纯的把文件分割,然后保存到.pdf格式的文件中肯定是不行的。还是最好研究一下pdf文件的格式,把格式信息加入文件,应该就可以了。
㈣ 读取PDF文件内容
这两种都有可能可能是没拷好也有可能本身PDF文档就有问题
㈤ java 如何读取PDF文件内容
import java.io.File;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import java.io.Writer;import java.net.MalformedURLException;import java.net.URL;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.util.PDFTextStripper;public class PdfReader {public void readFdf(String file) throws Exception {// 是否排序boolean sort = false;// pdf文件名String pdfFile = file;// 输入文本文件名称String textFile = null;// 编码方式String encoding = "UTF-8";// 开始提取页数int startPage = 1;// 结束提取页数int endPage = Integer.MAX_VALUE;// 文件输入流,生成文本文件Writer output = null;// 内存中存储的PDF DocumentPDDocument document = null;try {try {// 首先当作一个URL来装载文件,如果得到异常再从本地文件系统//去装载文件URL url = new URL(pdfFile);//注意参数已不是以前版本中的URL.而是File。document = PDDocument.load(pdfFile);// 获取PDF的文件名String fileName = url.getFile();// 以原来PDF的名称来命名新产生的txt文件if (fileName.length() > 4) {File outputFile = new File(fileName.substring(0, fileName.length() – 4)+ ".txt");textFile = outputFile.getName();}} catch (MalformedURLException e) {// 如果作为URL装载得到异常则从文件系统装载//注意参数已不是以前版本中的URL.而是File。document = PDDocument.load(pdfFile);if (pdfFile.length() > 4) {textFile = pdfFile.substring(0, pdfFile.length() – 4)+ ".txt";}}// 文件输入流,写入文件倒textFileoutput = new OutputStreamWriter(new FileOutputStream(textFile),encoding);// PDFTextStripper来提取文本PDFTextStripper stripper = null;stripper = new PDFTextStripper();// 设置是否排序stripper.setSortByPosition(sort);// 设置起始页stripper.setStartPage(startPage);// 设置结束页stripper.setEndPage(endPage);// 调用PDFTextStripper的writeText提取并输出文本stripper.writeText(document, output);} finally {if (output != null) {// 关闭输出流output.close();}if (document != null) {// 关闭PDF Documentdocument.close();}}}/*** @param args*/public static void main(String[] args) {// TODO Auto-generated method stubPdfReader pdfReader = new PdfReader();try {// 取得E盘下的SpringGuide.pdf的内容pdfReader.readFdf("E://SpringGuide.pdf");} catch (Exception e) {e.printStackTrace();}}}
㈥ 我想用PHP读取PDF文件的内容,尤其是现在很多的扫描后转为PDF的文件,请问怎么读
你可以从网上找一些为PHP语言编写的 pdf 扩展库,数量不少,比如:
PHP的PDF解析库 PdfParser
PdfParser 是一个标版准的 PHP 库提供个用权于从 PDF 文件中抽取数据的工具。它加载 PDF 文件并解析文件中对象、头和元数据,可抽取其中的文本信息,支持压缩的 PDF、MAC OS 罗马字符集编码、8进制和16进制编码。兼容 PSR-0 和 PSR-1。
示例代码:
$document=SmalotPdfParserDocument::parseFile('document.pdf');$pages=$document->getPages();$text=$pages[1]->getText();
PHP官方里也有一个对PDF支持的库 :PDFlib, 你可以根据自己的需要和喜好来使用。
㈦ 怎么样用pdflib库读取pdf文件内的内容
PDFlib TET(文本内容提取工具包)是一款可以从任意PDF文档格式中可靠地提取文本信息的软件。它不仅可以作为一种库/控件,还可以一种命令行工具。该工具包可以使得PDF格式的文本内容转换成Unicode(统一的字符编码标准)字符串,并附加详细的字形和字体信息。一旦拥有了TET,你就可以从PDF文档中的文本获取相应的Unicode字符值,以及它在页面的位置。
㈧ 如何批量提取PDF文件内容
把这些PDF文件的文件名改为有规律的顺序。不用Acrobat,就用你复制、搜索的那个软件。用按键精灵编制脚本,模拟手工操作。然后就能实现自动依次打开PDF文件,自动按固定位置提取内容并自动填入Excel表格。用Acrobat也一样能用按键精灵脚本的办法,区别仅仅在脚本要模拟Acrobat中的操作。总之,模拟的就是处理PDF文件的软件操作,爱是哪个就是哪个。
㈨ C#怎么读取PDF文件内容
引用动态链接库解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有: IKVM.GNU.Classpath.dllPDFBox-0.7.3.dllFontBox-0.1.0-dev.dllIKVM.Runtime.dll
将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间: using org.pdfbox.pdmodel;using org.pdfbox.util;API的使用方法
usingSystem.IO;usingSystem.Text;usingorg.pdfbox.pdmodel;usingorg.pdfbox.util;namespacePDFReader{classProgram{publicstaticvoidpdf2txt(FileInfopdffile,FileInfotxtfile){PDDocumentdoc=PDDocument.load(pdffile.FullName);PDFTextStripperpdfStripper=newPDFTextStripper();stringtext=pdfStripper.getText(doc);StreamWriterswPdfChange=newStreamWriter(txtfile.FullName,false,Encoding.GetEncoding("gb2312"));swPdfChange.Write(text);swPdfChange.Close();}staticvoidMain(string[]args){pdf2txt(newFileInfo(@"D:1.pdf"),newFileInfo(@"D:1.txt"));}}}
未经允许不得转载:山九号 » pdf读取文件内容|我想用PHP读取PDF文件的内容尤其是现在很多的扫描后转为PDF的文件请问怎么读