利用tabula-java从pdf文件中抽取表格

利用tabula-java从pdf文件中抽取表格

要从pdf中抽取表格,可以使用tabula,该项目的首页是https://github.com/tabulapdf, 这个工具是用java写的,需要安装java 7/8。

这里安装的是sun的java。方法如下:

  1. 这里 下载java,解压得到目录 jrexx , 然后将这个目录拷贝到 /usr/lib
  2. 设置JAVA_HOME 到 /usr/lib/jrexx
  3. 添加JAVA_HOME/bin 到PATH

这样java就安装好了。

然后下载 tabula-java 。 下载完成之后,使用下面的命令得到帮助。

java -jar ./target/tabula-0.9.2-jar-with-dependencies.jar –help

常用的命令为,

java -jar ./target/tabula-0.9.2-jar-with-dependencies.jar -p 80-83 -o aa.csv aa.PDF

即从aa.PDF文件的80到83页抽取表格,输出表格放在文件aa.csv中。

抽取的效果还不错。不过如果在一页中又多个表格,该工具不会自动的把表格分开。

另外,关于jdk的安装,有时需要java的编译器,需要安装jdk,安装方法和上面的jre一样,

  1. 下载包,然后解压得到目录jdkxxx, 然后将这个目录拷贝到/usr/lib/
  2. 设置JAVA_HOME为/usr/bin/jdkxxx
  3. 将JAVA_HOME/bin添加到PATH。


本文地址: http://www.bagualu.net/wordpress/archives/6651 转载请注明




“利用tabula-java从pdf文件中抽取表格”的3个回复

  1. Ruby, Python, R和 Node.js都有相应的包可以使用。如果用java语言,引入tabula-java包以后,就可以进行调用了。详细可以参考改包的主页。

发表评论

电子邮件地址不会被公开。 必填项已用*标注