`
tedeyang
  • 浏览: 317905 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

java进行pdf解析-----pdfbox

阅读更多



对pdf解析有不少成熟技术,经过选型,我最后选定用pdfbox。

前面那个flash上传的是pdf,实际保存到数据库的也是pdf,但中间还有个过程:转换为text文本,并抽取作者、时间、标题、、、之类的信息进行索引(用的lucene)

因为pdfbox原生提供了生成luceneDocument的类,所以不需要什么编程,只针对特殊需求hack了几个小地方,因此就不贴代码了。

这个贴的目的就是推荐一下pdfbox,以后需要用到pdf->text的,这个工具值得使用。

 

【2009-8】

 

分享到:
评论
7 楼 libaogui777 2018-07-22  
前辈,您好, 使用PDFbox 提取内容遇到一个问题,想请教您, PDF是竖着的时候,根据坐标读取内容很正常, 但是横着的PDF,根据坐标读取内容无法读取,请问有办法解决吗?

460257620@qq.com

重谢
6 楼 tedeyang 2011-12-13  
java_base 写道
前辈您好,我现在正用pdfbox  把txt文件转化为pdf文件,遇到了中文编码的问题。我用的是pdfbox-0.7.3  网上说是支持中文的。现在的问题是原来txt中的英文在新创建的pdf中正常显示,但中文是乱码。您能帮我一下吗?谢谢。(刚接触pdfbox,见谅)
代码如下:FileReader fr = new FileReader("D:/PDFTest/test.txt");
                BufferedReader br = new BufferedReader(fr);
                StringBuffer sBuffer = new StringBuffer();
                String string = null;
                TextToPDF test = new TextToPDF();
                System.out.println(br);
sBuffer.append(string).append(System.getProperty("line.separator"));
              
Reader input = new InputStreamReader(new FileInputStream("D:/PDFTest/test.txt"), "UTF-8");

       
                document = test.createPDFFromText(input);            
                   
                document.save("D:/PDFTest/test.pdf");

真抱歉,我现在才发现你的留言。:(
你应该早就解决问题了吧,不过我猜这种问题可能是字体不存在。
5 楼 tedeyang 2011-12-13  
antony102201 写道
我现在是读取有的PDF读取时报错,大部分是可以读的 现在不知道怎么办啊

是否是加密的PDF?
4 楼 antony102201 2011-12-12  
我现在是读取有的PDF读取时报错,大部分是可以读的 现在不知道怎么办啊
3 楼 java_base 2010-11-08  
前辈您好,我现在正用pdfbox  把txt文件转化为pdf文件,遇到了中文编码的问题。我用的是pdfbox-0.7.3  网上说是支持中文的。现在的问题是原来txt中的英文在新创建的pdf中正常显示,但中文是乱码。您能帮我一下吗?谢谢。(刚接触pdfbox,见谅)
代码如下:FileReader fr = new FileReader("D:/PDFTest/test.txt");
                BufferedReader br = new BufferedReader(fr);
                StringBuffer sBuffer = new StringBuffer();
                String string = null;
                TextToPDF test = new TextToPDF();
                System.out.println(br);
sBuffer.append(string).append(System.getProperty("line.separator"));
              
Reader input = new InputStreamReader(new FileInputStream("D:/PDFTest/test.txt"), "UTF-8");

       
                document = test.createPDFFromText(input);            
                   
                document.save("D:/PDFTest/test.pdf");
2 楼 caizi_java 2010-08-15  
有代码多好
1 楼 ccx007 2010-05-17  
哈哈,我也用过...
...

相关推荐

Global site tag (gtag.js) - Google Analytics