读取pdf文件内容JAVA|用java如何解析pdf文件

读取pdf文件内容JAVA|用java如何解析pdf文件的第1张示图

Ⅰ 怎样用java编程实现读取PDF文件中的文字或英文保存到TXT文档中,不使用第三方jar包。

1、创建一个路径为要读取的txt文件的file对象rFile。2、创建一个路径为要写入的txt文件的file对象wFile。3、创建一个FileReader对象,传入rFile到构造器。4、准备一个char数组,FileReader类有一个继承自java.io.Reader的read(char[]cbuf)方法,将字符读入数组。5、创建一个FileWriter对象,传入wFile到构造器。6、FileWriter类有一个继承自java.io.Writer的write(char[]cbuf)方法,可以写入字符数组。7、最后别忘了关闭流。

Ⅱ java 如何读取PDF文件内容

import java.io.File;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import java.io.Writer;import java.net.MalformedURLException;import java.net.URL;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.util.PDFTextStripper;public class PdfReader {public void readFdf(String file) throws Exception {// 是否排序boolean sort = false;// pdf文件名String pdfFile = file;// 输入文本文件名称String textFile = null;// 编码方式String encoding = "UTF-8";// 开始提取页数int startPage = 1;// 结束提取页数int endPage = Integer.MAX_VALUE;// 文件输入流,生成文本文件Writer output = null;// 内存中存储的PDF DocumentPDDocument document = null;try {try {// 首先当作一个URL来装载文件,如果得到异常再从本地文件系统//去装载文件URL url = new URL(pdfFile);//注意参数已不是以前版本中的URL.而是File。document = PDDocument.load(pdfFile);// 获取PDF的文件名String fileName = url.getFile();// 以原来PDF的名称来命名新产生的txt文件if (fileName.length() > 4) {File outputFile = new File(fileName.substring(0, fileName.length() – 4)+ ".txt");textFile = outputFile.getName();}} catch (MalformedURLException e) {// 如果作为URL装载得到异常则从文件系统装载//注意参数已不是以前版本中的URL.而是File。document = PDDocument.load(pdfFile);if (pdfFile.length() > 4) {textFile = pdfFile.substring(0, pdfFile.length() – 4)+ ".txt";}}// 文件输入流,写入文件倒textFileoutput = new OutputStreamWriter(new FileOutputStream(textFile),encoding);// PDFTextStripper来提取文本PDFTextStripper stripper = null;stripper = new PDFTextStripper();// 设置是否排序stripper.setSortByPosition(sort);// 设置起始页stripper.setStartPage(startPage);// 设置结束页stripper.setEndPage(endPage);// 调用PDFTextStripper的writeText提取并输出文本stripper.writeText(document, output);} finally {if (output != null) {// 关闭输出流output.close();}if (document != null) {// 关闭PDF Documentdocument.close();}}}/*** @param args*/public static void main(String[] args) {// TODO Auto-generated method stubPdfReader pdfReader = new PdfReader();try {// 取得E盘下的SpringGuide.pdf的内容pdfReader.readFdf("E://SpringGuide.pdf");} catch (Exception e) {e.printStackTrace();}}}

Ⅲ java读取pdf内容

用Java简单的读取pdf文件中的数据:第一步:下载PDFBox-0.7.2.jar。提供一个下载地址:http://pdfhome.hope.com.cn/Resource.aspx?CID=63844604-5253-4ae1-b023-258c9e324061&RID=20cd8f94-1cee-40b6-a3df-0ef024f8e0d2解压后,把lib文件下的PDFBox-0.7.2.jar,PDFBox-0.7.2-log4j.jar放到你classpath路径下。(我把源码以及jar包都放到下面的附件里,方面你的使用。)第二步:写个简单的读取pdf文件的程序。(PdfReader.java)import java.io.File;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import java.io.Writer;import java.net.MalformedURLException;import java.net.URL;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.util.PDFTextStripper;public class PdfReader { public void readFdf(String file) throws Exception { // 是否排序 boolean sort = false; // pdf文件名 String pdfFile = file; // 输入文本文件名称 String textFile = null; // 编码方式 String encoding = "UTF-8"; // 开始提取页数 int startPage = 1; // 结束提取页数 int endPage = Integer.MAX_VALUE; // 文件输入流,生成文本文件 Writer output = null; // 内存中存储的PDF Document PDDocument document = null; try { try { // 首先当作一个URL来装载文件,如果得到异常再从本地文件系统//去装载文件 URL url = new URL(pdfFile); //注意参数已不是以前版本中的URL.而是File。 document = PDDocument.load(pdfFile); // 获取PDF的文件名 String fileName = url.getFile(); // 以原来PDF的名称来命名新产生的txt文件 if (fileName.length() > 4) { File outputFile = new File(fileName.substring(0, fileName .length() – 4) + ".txt"); textFile = outputFile.getName(); } } catch (MalformedURLException e) { // 如果作为URL装载得到异常则从文件系统装载 //注意参数已不是以前版本中的URL.而是File。 document = PDDocument.load(pdfFile); if (pdfFile.length() > 4) { textFile = pdfFile.substring(0, pdfFile.length() – 4) + ".txt"; } } // 文件输入流,写入文件倒textFile output = new OutputStreamWriter(new FileOutputStream(textFile), encoding); // PDFTextStripper来提取文本 PDFTextStripper stripper = null; stripper = new PDFTextStripper(); // 设置是否排序 stripper.setSortByPosition(sort); // 设置起始页 stripper.setStartPage(startPage); // 设置结束页 stripper.setEndPage(endPage); // 调用PDFTextStripper的writeText提取并输出文本 stripper.writeText(document, output); } finally { if (output != null) { // 关闭输出流 output.close(); } if (document != null) { // 关闭PDF Document document.close(); } } } /** * @param args */ public static void main(String[] args) { // TODO Auto-generated method stub PdfReader pdfReader = new PdfReader(); try { // 取得E盘下的SpringGuide.pdf的内容 pdfReader.readFdf("E:\\SpringGuide.pdf"); } catch (Exception e) { e.printStackTrace(); } }} 这样就简单的完成了从pdf中读取数据了。在你的pdf文件所在的目录下生成一个同名的txt文件。

Ⅳ 怎么用java读取pdf文件内容

你可以把pdf转成word在进行读取推荐使用转转大师pdf转word转换器,免费的在线工具网络搜索下,在线免费转换就行了,不用下载注册,很方便

Ⅳ 如何使用java读取PDF文件

可以用itext包,这个功能很全,读、写、合并全有

Ⅵ 如何使用java打开pdf文件

java打开PDF需要借助其他的jar包的,如果我没记错的话,然后查看相应的API接口。应该是以流的形式进行回读取,之前写过一点是答往里面写数据的,生成html文然后写入PDF文件 工具有: ItextPdf、FlyingAndItext、pd4ml 这些是将html文转换为PDF文件的…

Ⅶ 用java如何解析pdf文件

一、前言 在企业的信息系统中,报表处理一直占比较重要的作用,本文将介绍一种生成PDF报表的Java组件–iText。通过在服务器端使用jsp或JavaBean生成PDF报表,客户端采用超级连接显示或下载得到生成的报表,这样就很好的解决了B/S系统的报表处理问题。 二、iText简介 iText是著名的开放源码的站点sourceforge一个项目,是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf的文档,而且可以将XML、Html文件转化为PDF文件。 iText的安装非常方便,在http://www.lowagie.com/iText/download.html – download 网站上下载iText.jar文件后,只需要在系统的CLASSPATH中加入iText.jar的路径,在程序中就可以使用iText类库了。 三、建立第一个PDF文档 用iText生成PDF文档需要5个步骤: ①建立com.lowagie.text.Document对象的实例。Document document = new Document(); ②建立一个书写器(Writer)与document对象关联,通过书写器(Writer)可以将文档写入到磁盘中。PDFWriter.getInstance(document, new FileOutputStream("Helloworld.PDF")); ③打开文档。document.open(); ④向文档中添加内容。document.add(new Paragraph("Hello World")); ⑤关闭文档。document.close(); 通过上面的5个步骤,就能产生一个Helloworld.PDF的文件,文件内容为"Hello World"。 建立com.lowagie.text.Document对象的实例 com.lowagie.text.Document对象的构建函数有三个,分别是:public Document();public Document(Rectangle pageSize);public Document(Rectangle pageSize,int marginLeft,int marginRight,int marginTop,int marginBottom); 构建函数的参数pageSize是文档页面的大小,对于第一个构建函数,页面的大小为A4,同Document(PageSize.A4)的效果一样;对于第三个构建函数,参数marginLeft、marginRight、marginTop、marginBottom分别为左、右、上、下的页边距。 通过参数pageSize可以设定页面大小、面背景色、以及页面横向/纵向等属性。iText定义了A0-A10、AL、LETTER、HALFLETTER、_11x17、LEDGER、NOTE、B0-B5、ARCH_A-ARCH_E、FLSA 和FLSE等纸张类型,也可以通过Rectangle pageSize = new Rectangle(144, 720);自定义纸张。通过Rectangle方法rotate()可以将页面设置成横向。 书写器(Writer)对象 一旦文档(document)对象建立好之后,需要建立一个或多个书写器(Writer)对象与之关联。通过书写器(Writer)对象可以将具体文档存盘成需要的格式,如com.lowagie.text.PDF.PDFWriter可以将文档存成PDF文件,com.lowagie.text.html.HtmlWriter可以将文档存成html文件。 设定文档属性 在文档打开之前,可以设定文档的标题、主题、作者、关键字、装订方式、创建者、生产者、创建日期等属性,调用的方法分别是:public boolean addTitle(String title)public boolean addSubject(String subject)public boolean addKeywords(String keywords)public boolean addAuthor(String author)public boolean addCreator(String creator)public boolean addProcer()public boolean addCreationDate()public boolean addHeader(String name, String content) 其中方法addHeader对于PDF文档无效,addHeader仅对html文档有效,用于添加文档的头信息。当新的页面产生之前,可以设定页面的大小、书签、脚注(HeaderFooter)等信息,调用的方法是:public boolean setPageSize(Rectangle pageSize)public boolean add(Watermark watermark)public void removeWatermark()public void setHeader(HeaderFooter header)public void resetHeader()public void setFooter(HeaderFooter footer)public void resetFooter()public void resetPageCount()public void setPageCount(int pageN) 如果要设定第一页的页面属性,这些方法必须在文档打开之前调用。 对于PDF文档,iText还提供了文档的显示属性,通过调用书写器的setViewerPreferences方法可以控制文档打开时Acrobat Reader的显示属性,如是否单页显示、是否全屏显示、是否隐藏状态条等属性。 另外,iText也提供了对PDF文件的安全保护,通过书写器(Writer)的setEncryption方法,可以设定文档的用户口令、只读、可打印等属性。 添加文档内容 所有向文档添加的内容都是以对象为单位的,如Phrase、Paragraph、Table、Graphic对象等。比较常用的是段落(Paragraph)对象,用于向文档中添加一段文字。四、文本处理 iText中用文本块(Chunk)、短语(Phrase)和段落(paragraph)处理文本。文本块(Chunk)是处理文本的最小单位,有一串带格式(包括字体、颜色、大小)的字符串组成。如以下代码就是产生一个字体为HELVETICA、大小为10、带下划线的字符串:Chunk chunk1 = new Chunk("This text is underlined", FontFactory.getFont(FontFactory.HELVETICA, 12, Font.UNDERLINE)); 短语(Phrase)由一个或多个文本块(Chunk)组成,短语(Phrase)也可以设定字体,但对于其中以设定过字体的文本块(Chunk)无效。通过短语(Phrase)成员函数add可以将一个文本块(Chunk)加到短语(Phrase)中,如:phrase6.add(chunk); 段落(paragraph)由一个或多个文本块(Chunk)或短语(Phrase)组成,相当于WORD文档中的段落概念,同样可以设定段落的字体大小、颜色等属性。另外也可以设定段落的首行缩进、对齐方式(左对齐、右对齐、居中对齐)。通过函数setAlignment可以设定段落的对齐方式,setAlignment的参数1为居中对齐、2为右对齐、3为左对齐,默认为左对齐。 五、表格处理 iText中处理表格的类为:com.lowagie.text.Table和com.lowagie.text.PDF.PDFPTable,对于比较简单的表格处理可以用com.lowagie.text.Table,但是如果要处理复杂的表格,这就需要com.lowagie.text.PDF.PDFPTable进行处理。这里就类com.lowagie.text.Table进行说明。 类com.lowagie.text.Table的构造函数有三个: ①Table (int columns) ②Table(int columns, int rows) ③Table(Properties attributes) 参数columns、rows、attributes分别为表格的列数、行数、表格属性。创建表格时必须指定表格的列数,而对于行数可以不用指定。 建立表格之后,可以设定表格的属性,如:边框宽度、边框颜色、衬距(padding space 即单元格之间的间距)大小等属性。下面通过一个简单的例子说明如何使用表格,代码如下:1:Table table = new Table(3);2:table.setBorderWidth(1);3:table.setBorderColor(new Color(0, 0, 255));4:table.setPadding(5);5:table.setSpacing(5);6:Cell cell = new Cell("header");7:cell.setHeader(true);8:cell.setColspan(3);9:table.addCell(cell);10:table.endHeaders();11:cell = new Cell("example cell with colspan 1 and rowspan 2");12:cell.setRowspan(2);13:cell.setBorderColor(new Color(255, 0, 0));14:table.addCell(cell);15:table.addCell("1.1");16:table.addCell("2.1");17:table.addCell("1.2");18:table.addCell("2.2");19:table.addCell("cell test1");20:cell = new Cell("big cell");21:cell.setRowspan(2);22:cell.setColspan(2);23:table.addCell(cell);24:table.addCell("cell test2"); 运行结果如下:header example cell with colspan 1 and rowspan 2 1.1 2.1 1.2 2.2 cell test1 big cell cell test2 代码1-5行用于新建一个表格,如代码所示,建立了一个列数为3的表格,并将边框宽度设为1,颜色为蓝色,衬距为5。 代码6-10行用于设定表格的表头,第7行cell.setHeader(true);是将该单元格作为表头信息显示;第8行cell.setColspan(3);指定了该单元格占3列;为表格添加表头信息时,要注意的是一旦表头信息添加完了之后,必须调用endHeaders()方法,如第10行,否则当表格跨页后,表头信息不会再显示。 代码11-14行是向表格中添加一个宽度占一列,长度占二行的单元格。 往表格中添加单元格(cell)时,按自左向右、从上而下的次序添加。如执行完11行代码后,表格的右下方出现2行2列的空白,这是再往表格添加单元格时,先填满这个空白,然后再另起一行,15-24行代码说明了这种添加顺序。 六、图像处理 iText中处理表格的类为com.lowagie.text.Image,目前iText支持的图像格式有:GIF, Jpeg, PNG, wmf等格式,对于不同的图像格式,iText用同样的构造函数自动识别图像格式。通过下面的代码分别获得gif、jpg、png图像的实例。Image gif = Image.getInstance("vonnegut.gif");Image jpeg = Image.getInstance("myKids.jpg");Image png = Image.getInstance("hitchcock.png"); 图像的位置 图像的位置主要是指图像在文档中的对齐方式、图像和文本的位置关系。IText中通过函数public void setAlignment(int alignment)进行处理,参数alignment为Image.RIGHT、Image.MIDDLE、Image.LEFT分别指右对齐、居中、左对齐;当参数alignment为Image.TEXTWRAP、Image.UNDERLYING分别指文字绕图形显示、图形作为文字的背景显示。这两种参数可以结合以达到预期的效果,如setAlignment(Image.RIGHT|Image.TEXTWRAP)显示的效果为图像右对齐,文字围绕图像显示。 图像的尺寸和旋转 如果图像在文档中不按原尺寸显示,可以通过下面的函数进行设定:public void scaleAbsolute(int newWidth, int newHeight)public void scalePercent(int percent)public void scalePercent(int percentX, int percentY) 函数public void scaleAbsolute(int newWidth, int newHeight)直接设定显示尺寸;函数public void scalePercent(int percent)设定显示比例,如scalePercent(50)表示显示的大小为原尺寸的50%;而函数scalePercent(int percentX, int percentY)则图像高宽的显示比例。 如果图像需要旋转一定角度之后在文档中显示,可以通过函数public void setRotation(double r)设定,参数r为弧度,如果旋转角度为30度,则参数r= Math.PI / 6。 七、中文处理 默认的iText字体设置不支持中文字体,需要下载远东字体包iTextAsian.jar,否则不能往PDF文档中输出中文字体。通过下面的代码就可以在文档中使用中文了:BaseFont bfChinese = BaseFont.createFont("STSong-Light", "UniGB-UCS2-H", BaseFont.NOT_EMBEDDED);com.lowagie.text.Font FontChinese = new com.lowagie.text.Font(bfChinese, 12, com.lowagie.text.Font.NORMAL);Paragraph pragraph=new Paragraph("你好", FontChinese); 八、后计 iText还有很多高级的功能,这里就不一一介绍了,具体开发时可参考发布的文档。总的来说,iText是一套java环境下不错的制作PDF的组件。因为iText支持jsp/javabean下的开发,这使得B/S应用中的报表问题能得到很好的解决。由于iText毕竟不是专门为制作报表设计,所有报表中的内容、格式都需要通过写代码实现,相对于那些专业的支持可视化设计的报表软件来说,编程的工作量就有一定程度的增加。

Ⅷ 用java读取pdf

可以使用PDFBOX0.7.3控件:import java.io.InputStream;import java.io.IOException;import org.apache.lucene.document.Document;import org.pdfbox.cos.COSDocument;import org.pdfbox.pdfparser.PDFParser;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.pdmodel.PDDocumentInformation;import org.pdfbox.util.PDFTextStripper;import com.search.code.Index;public Document getDocument(Index index, String url, String title, InputStream is)throws DocCenterException {COSDocument cosDoc = null;<br/> try {cosDoc = parseDocument(is);<br/> } catch (IOException e) { closeCOSDocument(cosDoc); throw new DocCenterException("无法处理该PDF文档", e); } if (cosDoc.isEncrypted()) { if (cosDoc != null) closeCOSDocument(cosDoc); throw new DocCenterException("该PDF文档是加密文档,无法处理"); } String docText = null; try { PDFTextStripper stripper = new PDFTextStripper(); docText = stripper.getText(new PDDocument(cosDoc)); } catch (IOException e) { closeCOSDocument(cosDoc); throw new DocCenterException("无法处理该PDF文档", e); } PDDocument pdDoc = null; try {pdDoc = new PDDocument(cosDoc);<br/> PDDocumentInformation docInfo = pdDoc.getDocumentInformation();<br/> if(docInfo.getTitle()!=null && !docInfo.getTitle().equals("")){<br/> title = docInfo.getTitle();} } catch (Exception e) { closeCOSDocument(cosDoc); closePDDocument(pdDoc); System.err.println("无法取得该PDF文档的元数据" + e.getMessage()); } finally { closeCOSDocument(cosDoc); closePDDocument(pdDoc); } return null;}private static COSDocument parseDocument(InputStream is) throws IOException { PDFParser parser = new PDFParser(is);parser.parse();return parser.getDocument();}private void closeCOSDocument(COSDocument cosDoc) { if (cosDoc != null) {try {cosDoc.close();} catch (IOException e) {} }}private void closePDDocument(PDDocument pdDoc) { if (pdDoc != null) { try { pdDoc.close(); } catch (IOException e) {}}}

Ⅸ 如何用java读取pdf文档的部分内容

你需要用到 api

https://pdfbox.apache.org/1.8/cookbook/textextraction.html

例子如下

importjava.io.File;importjava.io.IOException;importorg.apache.pdfbox.pdmodel.PDDocument;importorg.apache.pdfbox.text.PDFTextStripper;importorg.apache.pdfbox.text.PDFTextStripperByArea;try{PDDocumentdocument=null;document=PDDocument.load(newFile("test.pdf"));document.getClass();if(!document.isEncrypted()){PDFTextStripperByAreastripper=newPDFTextStripperByArea();stripper.setSortByPosition(true);PDFTextStripperTstripper=newPDFTextStripper();Stringst=Tstripper.getText(document);System.out.println("Text:"+st);}}catch(Exceptione){e.printStackTrace();}

未经允许不得转载:山九号 » 读取pdf文件内容JAVA|用java如何解析pdf文件

赞 (0)