『壹』 java 如何访问pdf文件
import java.io.*;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.pdfparser.PDFParser;import org.pdfbox.util.PDFTextStripper;public class PDFReader { public static String file_path = "F:/pdf/网易技术部的MySQL中文资料.pdf"; // 获取PDF内纯文本信息 public String GetTextFromPdf(String filename) throws Exception { FileInputStream instream = new FileInputStream(filename); // 根据指定文件创建输入流 PDFParser parser = new PDFParser( instream ); // 创建PDF解析器 parser.parse(); // 执行PDF解析过程 PDDocument pdfdocument = parser.getPDDocument(); // 获取解析器的PDF文档对象 PDFTextStripper pdfstripper = new PDFTextStripper(); // 生成PDF文档内容剥离器 String contenttxt = pdfstripper.getText(pdfdocument); // 利用剥离器获取文档 System.out.println("文件长度 : "+ contenttxt.length() +"\n"); return contenttxt; } public static void main(String args[]) { PDFReader pdfbox=new PDFReader(); // 生成PDFBoxHello对象 try{ // 获取文档纯文本内容 String doctext = pdfbox.GetTextFromPdf(file_path); System.out.println("文件内容 : "); System.out.println(doctext); System.out.println("文件结束 . "); } catch(Exception e){ e.printStackTrace(); } }}别人的,试了一下可以,包你自己解决
『贰』 java读取pdf内容
用Java简单的读取pdf文件中的数据:第一步:下载PDFBox-0.7.2.jar。提供一个下载地址:http://pdfhome.hope.com.cn/Resource.aspx?CID=63844604-5253-4ae1-b023-258c9e324061&RID=20cd8f94-1cee-40b6-a3df-0ef024f8e0d2解压后,把lib文件下的PDFBox-0.7.2.jar,PDFBox-0.7.2-log4j.jar放到你classpath路径下。(我把源码以及jar包都放到下面的附件里,方面你的使用。)第二步:写个简单的读取pdf文件的程序。(PdfReader.java)import java.io.File;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import java.io.Writer;import java.net.MalformedURLException;import java.net.URL;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.util.PDFTextStripper;public class PdfReader { public void readFdf(String file) throws Exception { // 是否排序 boolean sort = false; // pdf文件名 String pdfFile = file; // 输入文本文件名称 String textFile = null; // 编码方式 String encoding = "UTF-8"; // 开始提取页数 int startPage = 1; // 结束提取页数 int endPage = Integer.MAX_VALUE; // 文件输入流,生成文本文件 Writer output = null; // 内存中存储的PDF Document PDDocument document = null; try { try { // 首先当作一个URL来装载文件,如果得到异常再从本地文件系统//去装载文件 URL url = new URL(pdfFile); //注意参数已不是以前版本中的URL.而是File。 document = PDDocument.load(pdfFile); // 获取PDF的文件名 String fileName = url.getFile(); // 以原来PDF的名称来命名新产生的txt文件 if (fileName.length() > 4) { File outputFile = new File(fileName.substring(0, fileName .length() – 4) + ".txt"); textFile = outputFile.getName(); } } catch (MalformedURLException e) { // 如果作为URL装载得到异常则从文件系统装载 //注意参数已不是以前版本中的URL.而是File。 document = PDDocument.load(pdfFile); if (pdfFile.length() > 4) { textFile = pdfFile.substring(0, pdfFile.length() – 4) + ".txt"; } } // 文件输入流,写入文件倒textFile output = new OutputStreamWriter(new FileOutputStream(textFile), encoding); // PDFTextStripper来提取文本 PDFTextStripper stripper = null; stripper = new PDFTextStripper(); // 设置是否排序 stripper.setSortByPosition(sort); // 设置起始页 stripper.setStartPage(startPage); // 设置结束页 stripper.setEndPage(endPage); // 调用PDFTextStripper的writeText提取并输出文本 stripper.writeText(document, output); } finally { if (output != null) { // 关闭输出流 output.close(); } if (document != null) { // 关闭PDF Document document.close(); } } } /** * @param args */ public static void main(String[] args) { // TODO Auto-generated method stub PdfReader pdfReader = new PdfReader(); try { // 取得E盘下的SpringGuide.pdf的内容 pdfReader.readFdf("E:\\SpringGuide.pdf"); } catch (Exception e) { e.printStackTrace(); } }} 这样就简单的完成了从pdf中读取数据了。在你的pdf文件所在的目录下生成一个同名的txt文件。
『叁』 java , 浏览器输入url地址,获取硬盘某个pdf文件。怎么做 如下图这种效果。
1. 怎样迅速地把网页或链接发送给他人? 文件/发送/ 指令可以立即通过电子邮件发送网页或链接。 2. 如何在新窗口中打开链接? 1. 在页面中直接拖放链接。 2. 拖放链接到地址栏或标签栏。 3. 按下 Shift 键后点击链接。 4. 激活”在新窗口中打开链接“功能。 5. 设置鼠标选项的鼠标按键动作“中键单击”为“打开链接”,然后您就可以单击鼠标中键来打开链接。 3. 怎样打开网页中的地址字串? 1. 选中地址字串,然后拖放到地址栏或标签栏。 2. 选中地址字串,然后选择 文件/新建/所选字符(Ctrl+Shift+T)。 3. 选中地址字串,然后拖放到页面中的任何地方。 4. 怎样快速的打开地址? 1. 启用“一键通”功能,并为指定的 URL 设置一个快捷键。 2. 启用“URL 缩写功能”,然后在地址栏输入相应的缩写。 3. 将 URL 添加到收藏夹,以后就能通过收藏夹选择并打开该URL。 5. 怎样快速的同时打开若干个 URL? 1. 把这些 URL 保存为一个群组,然后可以打开这个群组。 2. 把这些 URL 添加到收藏夹中的同一个文件夹中,然后您可以通过“打开本层链接”来打开。 3. 选中这些文件或链接,然后拖放到主窗口或悬浮监视窗。 6. 怎样快速的关闭一个页面? 1. 按快捷键 F4、Ctrl+F4、Ctrl+W、Ctrl+PageDown。 2. 启用“单击图标关闭标签”,就可通过单击窗口标签的图标来快速关闭。 3. 启用鼠标手势功能,然后执行手势 ↑ → (预设)可关闭当前页。 4. 右键点击标签,选择弹出菜单中的 "关闭" 项。 7. 怎样快速的保存图片? 1. 设置鼠标拖放图片的动作为“保存到收集器”,然后就可以快速地将图片保存到收集器所指定的路径中。 2. 把图片拖动到状态栏的收集器图标,此图片就会自动保存到收集器所指定的路径中。 8. 怎样快速的搜索? 1. 在搜索栏键入关键字后按回车键。 2. 把要搜索的关键字拖放到搜索栏。 3. 把关键字拖放到页面中任何地方。 4. 设置地址栏转到按钮显示搜索引擎菜单,在地址栏输入关键字,点击转到按钮的搜索引擎下拉菜单。 9. 怎样快速的切换选择不同的搜索引擎? 您可以按下 Ctrl 键或 Shift 键并点击弹出的搜索栏菜单,实现临时的切换选择不同的搜索引擎项,相关细节请参看“搜索引擎”。 10. 怎样快速的在页面内搜索某个指定的链接? 在 IE 中,如果想寻找一个您所需要的特定链接,您必须打开源文件并在其中查找,这样很麻烦且效果也不好。在 GreenBrowser 中您可以使用 “链接列表" 对话框来达到这个目的。请参看“页内链接分析”的相关介绍。 11. 怎样快速的显示/隐藏 GreenBrowser? 1. 使用快捷键。默认键是 Ctrl+`,您可以设置新的快捷键。 2. 如果选择了显示悬浮监视窗,双击悬浮窗。 3. 如果选择了显示系统托盘图标,点击这个图标。 12. 怎样使 GreenBrowser 在运行中占用更少的内存资源? 当 GreenBrowser 最小化或关闭到系统托盘时,它将占用最小的物理内存,大约能释放 80% 内存空间。所以当您不使用 GreenBrowser 时,您可以将它最小化或关闭到系统托盘,最小化后还原也有相同的效果。 13. 怎样使用地址栏的字串拖放功能? 1. 拖放: 打开拖放的字串 2. Ctrl+拖放: 搜索拖放的字串 3. Shift+拖放: 将拖放的字串存入搜索栏,但不执行搜索 4. Ctrl+Shift+拖放: 在页面中高亮显示拖动的关键字 14. 怎样使用搜索栏的字串拖放功能? 1. 拖放: 搜索拖放的字串 2. Ctrl+拖放: 在页面中查找拖放的字串 3. Shift+拖放: 将拖放的字串存入搜索栏,但不执行搜索 4. Ctrl+Shift+拖放: 在页面中高亮显示拖动的关键字 15. 怎样直接打开指向的地址? 有一些 URL 象这样的链接: /jump.asp?/。如果您需要直接打开这个指向的地址,请在点击该链接时按下 Ctrl 键 (缺省值)。 16. 怎样快速的改变页面的下载控制方案? 您可以通过页面下载控制菜单来改变下载控制方案,您点选菜单项后,页面将随之自动刷新,如果您不需要这样,请在点选菜单项时按下 Ctrl 键。 17. 怎样快速的打开页面? 1. 禁止或精简弹出窗口及内容过滤列表。 2. 禁止或精简状态栏的显示内容: 本地 IP 地址、空闲物理内存、网络速率、Modem 速率。 18. 怎样解除网页的鼠标左右键限制? 一些网页锁定了鼠标左右键的文本选择和点击的功能,您可以解除这个限制: 1. 运行脚本插件“解除鼠标左右键限制”或在脚本收集器中运行这个脚本。 2. 禁止页面下载控制中的 Script,重新载入页面。 19. 怎样快速的找到具有相同或相似地址的标签? 有时候,您打开了很多页面,要从中寻找出地址相同或相似的标签就很困难。您可以使用标记/不标记功能,当输入相似的地址时,您可以修改这个地址字符,GreenBrowser 就能找到相似的地址并用特殊的图标把它们标记出来。 20. 怎样快速的关闭一些标签? 1. 锁定标签,点击“全部关闭”。 2. 如果网页的地址相同或相似,点击“全部关闭(相似地址)”。 3. 如果网页的标题相同或相似,点击“全部关闭(相似标题)”。 4. 您可以快速关闭在当前页左、右侧的所有页面。 21. 怎样禁止显示 Flash? 1. 添加 *.swf 到页面内容过滤列表,同时开启页面内容过滤功能。 2. 在“页面下载控制”菜单中不选择“显示 Flash(所有窗口)”,这个方法比第一个方法的效率可能更高,但这将禁止所有 IE 内核浏览器显示 Flash。 22. 怎样使 GreenBrowser 更稳定? GreenBrowser 支持脚本插件,但某些错误或复杂的脚本可能会导致 GreenBrowser 崩溃。建议谨慎运行脚本插件。 23. 怎样安装插件? 1. 通过 GreenBrowser 主页下载插件压缩包。 2. 将压缩包解压到一个新的文件夹下。 3. 点击 工具扩展工具栏设置扩展工具栏… 4. 点击 ”…“ 后选择插件,然后按下插入按钮。 5. 如果您把一些插件都放在一个文件夹下,您可以点击 “导入脚本插件…” 来选择这个文件夹,然后您就可以一次性导入该文件夹下的所有插件。 24. 怎样在浏览时保护页面标题信息? 1. 您可以选择 “禁止在窗口标题栏中显示网页标题”。 2. 您可以为页面标签分配固定标题,如果您需要将固定标题分配给所有标签,就在点击 “确定“ 前按住 Shift 键。 25. 怎样快速的删除地址栏和搜索栏关键字条目? 1. 您可以下拉列表并使用 “Delete” 键直接删除条目。 2. GreenBrowser 选项中的删除选项。 26. 怎样禁止网页弹出关于ActiveX认证的对话框? 有两种方法: 1.使用外部工具 NotTroubleMe 别烦我,将您不想弹出的ActiveX对话框的CLSID添加到 NotTroubleMe 并选中该项。 2.在内容过滤列表中添加规则“*.cab”,并启用页面内容过滤器。 27. 怎样使用GreenBrowser的相对路径? 如果您想使用GreenBrowser安装路径下的目录或文件,只需要在其路径前面添加“.”或者“..”,例如: .skin, .Proxy.ini, . esource esource.htm,..Software.
『肆』 怎么用java读取pdf文件内容
你可以把pdf转成word在进行读取推荐使用转转大师pdf转word转换器,免费的在线工具网络搜索下,在线免费转换就行了,不用下载注册,很方便
『伍』 有Java的pdf阅读器吗
目前好像没有,只有anyview可以实现读pdf文件的功能,但效果不是很好,你可以去下载一个试试。
『陆』 java 如何读取PDF文件内容
import java.io.File;import java.io.FileOutputStream;import java.io.OutputStreamWriter;import java.io.Writer;import java.net.MalformedURLException;import java.net.URL;import org.pdfbox.pdmodel.PDDocument;import org.pdfbox.util.PDFTextStripper;public class PdfReader {public void readFdf(String file) throws Exception {// 是否排序boolean sort = false;// pdf文件名String pdfFile = file;// 输入文本文件名称String textFile = null;// 编码方式String encoding = "UTF-8";// 开始提取页数int startPage = 1;// 结束提取页数int endPage = Integer.MAX_VALUE;// 文件输入流,生成文本文件Writer output = null;// 内存中存储的PDF DocumentPDDocument document = null;try {try {// 首先当作一个URL来装载文件,如果得到异常再从本地文件系统//去装载文件URL url = new URL(pdfFile);//注意参数已不是以前版本中的URL.而是File。document = PDDocument.load(pdfFile);// 获取PDF的文件名String fileName = url.getFile();// 以原来PDF的名称来命名新产生的txt文件if (fileName.length() > 4) {File outputFile = new File(fileName.substring(0, fileName.length() – 4)+ ".txt");textFile = outputFile.getName();}} catch (MalformedURLException e) {// 如果作为URL装载得到异常则从文件系统装载//注意参数已不是以前版本中的URL.而是File。document = PDDocument.load(pdfFile);if (pdfFile.length() > 4) {textFile = pdfFile.substring(0, pdfFile.length() – 4)+ ".txt";}}// 文件输入流,写入文件倒textFileoutput = new OutputStreamWriter(new FileOutputStream(textFile),encoding);// PDFTextStripper来提取文本PDFTextStripper stripper = null;stripper = new PDFTextStripper();// 设置是否排序stripper.setSortByPosition(sort);// 设置起始页stripper.setStartPage(startPage);// 设置结束页stripper.setEndPage(endPage);// 调用PDFTextStripper的writeText提取并输出文本stripper.writeText(document, output);} finally {if (output != null) {// 关闭输出流output.close();}if (document != null) {// 关闭PDF Documentdocument.close();}}}/*** @param args*/public static void main(String[] args) {// TODO Auto-generated method stubPdfReader pdfReader = new PdfReader();try {// 取得E盘下的SpringGuide.pdf的内容pdfReader.readFdf("E://SpringGuide.pdf");} catch (Exception e) {e.printStackTrace();}}}
『柒』 java语言怎么通过点击一个pdf文件超链接,实现pdf文件在线(html)预览。如下图:
到 http://get.adobe.com/cn/reader/ 下载 安装Adobe Reader 就可以了。如果你是制作网页,那超链接直接指向PDF文件就可以了。例如:<a href="xxxx.pdf">在线浏览PDF文件</a>
『捌』 如何使用java打开pdf文件
java打开PDF需要借助其他的jar包的,如果我没记错的话,然后查看相应的API接口。应该是以流的形式进行回读取,之前写过一点是答往里面写数据的,生成html文然后写入PDF文件 工具有: ItextPdf、FlyingAndItext、pd4ml 这些是将html文转换为PDF文件的…
『玖』 如何使用java读取PDF文件
可以用itext包,这个功能很全,读、写、合并全有
『拾』 java如何读取某个网址下的pdf文件
是不是没加载完毕啊?new PDFParser前先检查下文件大小
未经允许不得转载:山九号 » java浏览pdf文件|java 如何读取PDF文件内容