javapdf转txt文件|java 如何读取PDF文件内容

javapdf转txt文件|java 如何读取PDF文件内容的第1张示图

⑴ java 如何读取PDF文件内容

import java.io.File;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import java.io.Writer;import java.net.MalformedURLException;import java.net.URL;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.util.PDFTextStripper;public class PdfReader {public void readFdf(String file) throws Exception {// 是否排序boolean sort = false;// pdf文件名String pdfFile = file;// 输入文本文件名称String textFile = null;// 编码方式String encoding = "UTF-8";// 开始提取页数int startPage = 1;// 结束提取页数int endPage = Integer.MAX_VALUE;// 文件输入流,生成文本文件Writer output = null;// 内存中存储的PDF DocumentPDDocument document = null;try {try {// 首先当作一个URL来装载文件,如果得到异常再从本地文件系统//去装载文件URL url = new URL(pdfFile);//注意参数已不是以前版本中的URL.而是File。document = PDDocument.load(pdfFile);// 获取PDF的文件名String fileName = url.getFile();// 以原来PDF的名称来命名新产生的txt文件if (fileName.length() > 4) {File outputFile = new File(fileName.substring(0, fileName.length() – 4)+ ".txt");textFile = outputFile.getName();}} catch (MalformedURLException e) {// 如果作为URL装载得到异常则从文件系统装载//注意参数已不是以前版本中的URL.而是File。document = PDDocument.load(pdfFile);if (pdfFile.length() > 4) {textFile = pdfFile.substring(0, pdfFile.length() – 4)+ ".txt";}}// 文件输入流,写入文件倒textFileoutput = new OutputStreamWriter(new FileOutputStream(textFile),encoding);// PDFTextStripper来提取文本PDFTextStripper stripper = null;stripper = new PDFTextStripper();// 设置是否排序stripper.setSortByPosition(sort);// 设置起始页stripper.setStartPage(startPage);// 设置结束页stripper.setEndPage(endPage);// 调用PDFTextStripper的writeText提取并输出文本stripper.writeText(document, output);} finally {if (output != null) {// 关闭输出流output.close();}if (document != null) {// 关闭PDF Documentdocument.close();}}}/*** @param args*/public static void main(String[] args) {// TODO Auto-generated method stubPdfReader pdfReader = new PdfReader();try {// 取得E盘下的SpringGuide.pdf的内容pdfReader.readFdf("E://SpringGuide.pdf");} catch (Exception e) {e.printStackTrace();}}}

⑵ java核心技术书pdf的能转换成txt不

pdf是照片直接压在一起形成的,也就是打包的图片,所以是无法直接转换为txt的,你要是不怕麻烦的话,可以用office 2003 完整版里面的OCR识别器来识别吧 要将它们变成txt格式的文本。需要以下必要软件。 1.office 2003 完整版。记住,必须是完整版的,大约500M左右。(因为只有它才有虚拟打印机和OCR识别功能。) 2.pdf\pdg阅读软件。 3.虚拟打印机软件。 4.一本pdf或pdg电子书。 现在,我们开始转变。 1.安装pdf或pdg阅读软件。(如果你下载的是pdg电子书,那么你就安装pdg阅读软件。如果是pdf格式的电子书,你就安装pdf阅读软件。总之,你要将你的电子书用相关的软件打开。) 2.安装,office 2003完整版。安装office 2003完整版时,电脑会问你是否重启计算机,如果是你的私人计算机,那么你就重启你的计算机,安装上office 2003完整版也不错。但如果你是在网吧里上网的话,你就不重启电脑,因为网吧里一般都安装有还原精灵。一重启,电脑上的数据就没有了。所以这里你不一定要重启,但是你必须安装(虚拟打印机)这个软件。一定要安装哦! 3.用你的阅读器打开你下载的电子书。 4.打开电子书后,点击——文件——打印(电脑将用你的虚拟打印机打印你下载的电子书,打印完后,它会自动生成一个文档。) 5.在这个自动生成的文档里边,你点击——工具——发送到word文档。在对话框里完成相关的设置。电脑将用office2003的OCR功能将你打印的电子书的字自动生成word文档。 6.在这个word文档里面,你可以将里面的内容修改、删除、复制,就可以将你下载的电子书变成txt纯文本了。 7.用office 2003的OCR功能识别的字,有一定的乱码,这是一定的,你只需将乱码的删掉,错误的改改,就大功告成了。 8.在这里,我们主要运用的是office 2003的虚拟打印机和它的OCR识别功能。(再次提醒,office 2003必须是完整版的。)这儿有一个比较好的pdg阅读器。叫什么老马的,到网上搜搜就应该能找到,比那个超星阅读器强多了。那个超星限制太多,不好。pdf内格式的阅读软件比较多,很好找的。 9.在虚拟打印机打印和OCR识别功能的时候,里面的设置你自己好好看看,应该没什么问题的。

⑶ java读取pdf内容

用Java简单的读取pdf文件中的数据:第一步:下载PDFBox-0.7.2.jar。提供一个下载地址:http://pdfhome.hope.com.cn/Resource.aspx?CID=63844604-5253-4ae1-b023-258c9e324061&RID=20cd8f94-1cee-40b6-a3df-0ef024f8e0d2解压后,把lib文件下的PDFBox-0.7.2.jar,PDFBox-0.7.2-log4j.jar放到你classpath路径下。(我把源码以及jar包都放到下面的附件里,方面你的使用。)第二步:写个简单的读取pdf文件的程序。(PdfReader.java)import java.io.File;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import java.io.Writer;import java.net.MalformedURLException;import java.net.URL;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.util.PDFTextStripper;public class PdfReader { public void readFdf(String file) throws Exception { // 是否排序 boolean sort = false; // pdf文件名 String pdfFile = file; // 输入文本文件名称 String textFile = null; // 编码方式 String encoding = "UTF-8"; // 开始提取页数 int startPage = 1; // 结束提取页数 int endPage = Integer.MAX_VALUE; // 文件输入流,生成文本文件 Writer output = null; // 内存中存储的PDF Document PDDocument document = null; try { try { // 首先当作一个URL来装载文件,如果得到异常再从本地文件系统//去装载文件 URL url = new URL(pdfFile); //注意参数已不是以前版本中的URL.而是File。 document = PDDocument.load(pdfFile); // 获取PDF的文件名 String fileName = url.getFile(); // 以原来PDF的名称来命名新产生的txt文件 if (fileName.length() > 4) { File outputFile = new File(fileName.substring(0, fileName .length() – 4) + ".txt"); textFile = outputFile.getName(); } } catch (MalformedURLException e) { // 如果作为URL装载得到异常则从文件系统装载 //注意参数已不是以前版本中的URL.而是File。 document = PDDocument.load(pdfFile); if (pdfFile.length() > 4) { textFile = pdfFile.substring(0, pdfFile.length() – 4) + ".txt"; } } // 文件输入流,写入文件倒textFile output = new OutputStreamWriter(new FileOutputStream(textFile), encoding); // PDFTextStripper来提取文本 PDFTextStripper stripper = null; stripper = new PDFTextStripper(); // 设置是否排序 stripper.setSortByPosition(sort); // 设置起始页 stripper.setStartPage(startPage); // 设置结束页 stripper.setEndPage(endPage); // 调用PDFTextStripper的writeText提取并输出文本 stripper.writeText(document, output); } finally { if (output != null) { // 关闭输出流 output.close(); } if (document != null) { // 关闭PDF Document document.close(); } } } /** * @param args */ public static void main(String[] args) { // TODO Auto-generated method stub PdfReader pdfReader = new PdfReader(); try { // 取得E盘下的SpringGuide.pdf的内容 pdfReader.readFdf("E:\\SpringGuide.pdf"); } catch (Exception e) { e.printStackTrace(); } }} 这样就简单的完成了从pdf中读取数据了。在你的pdf文件所在的目录下生成一个同名的txt文件。

⑷ 跪求用JAVA将PDF的标题提取提取出来并存入TXT中

File file = new File("输出路径");//例如D://输出.txtOutputStream out = new FileOutputStream(file);out.write((pdfInfo.getTitle()+" "+pdfInfo.getAuthor()).getBytes());纯手敲请采纳!!!

⑸ 用JAVA 将PDF文档转换为TXT格式

用apache的tesseract将pdf读取出来整理到txt中,2个txt合并就好说了

⑹ java 怎么把pdf转成word

有个pdf库,Free Spire.PDF for Java,可以直接调用方法saveToFile("ToWord.docx",FileFormat.DOCX)转成Word,方法很简单。

可参考原文

⑺ 用java 完成(内容纯文件的)PDF文件(原封不动地)转换为txt文件, 怎么实现的,求助,叩谢…

pdfbox 下载这个工具包 直接调用里面的方法!

未经允许不得转载:山九号 » javapdf转txt文件|java 如何读取PDF文件内容

赞 (0)