使用ruby pdf-reader解析pdf

mitkmikd  于 12个月前  发布在  Ruby
关注(0)|答案(2)|浏览(81)

我正在尝试使用pdf-reader gem解析一个pdf。我已经探索了一些方法&特定PDF页面的显示方法显示了正确的数据(即使表列有多行,它也显示了组合的特定列),但它给出的返回值为nil,那么我们有没有办法得到这个方法显示的值呢?.我也尝试过使用文本方法,但问题是,在PDF中,我有类似表格的结构&一个表格列可以有多行&由于这个原因,文本方法不按顺序显示值,所以它显示第一行,然后第二行&等等。因此,判断哪个特定列有多行变得不那么困难。有什么办法可以解决这个问题吗?

reader = PDF::Reader.new(io)
reader.page(1).display #display methods print nice pdf data but return nil
reader.page(1).text #display pdf text but does not show value in order (in case of table)
cmssoen2

cmssoen21#

试试下面的代码

reader = PDF::Reader.new(io)
puts reader.page(1).display #display methods print nice pdf data but return nil
puts reader.page(1).text #display pdf text but does not show value in order (in case of table)

display方法只打印不返回。
如果你想看到任何结果。输入putsp并尝试

dfty9e19

dfty9e192#

表格中的文本可能顺序混乱:

PDF::Reader.open('my_file.pdf') do |reader|
  reader.pages.each do |page|
    page.text.split("\n").each do |line|
      puts line
    end
  end
end

相关问题