我正在尝试构建这个应用程序,当提供一个.txt文件填充isbn编号时,isbn.nu只需将isbn附加到url www.isbn.nu/*your isbn编号 *,即可访问www.example.com页面。
拉出页面后,我想扫描它以获取有关这本书的信息,并将其存储在Excel文件中。
我想用Java创建一个url的文件流,但是我不确定如何从html页面中提取信息。存储信息将使用JExcel Java包完成。
我最好的猜测是使用javascript来提取信息,但是我不知道如何从我的java程序中调用javascript。
我的想法可信吗?如果不可信,你们建议我怎么做。
我的目标:从html页面中检索信息,并将其存储在excel文件中,每个ISBN都存储在一个文本文件中。2一个文本文件中可以有任意数量的ISBN。
顺便说一句,这不是家庭作业,我只是为一个向苏丹捐赠书籍的组织做这件事。目前他们有5个人手工编目这些书,我是其中之一。
5条答案
按热度按时间9njqaruj1#
Jsoup是一个解析网页并从中获取数据的有用工具,你可以用Java来做,而且非常简单。
你可以解析文本文件,用字符串构建URL,用JSoup发送它,然后用JSoup解析页面上的html标签信息。然后你可以随心所欲地存储它。如果你对Java更熟悉,你真的根本不需要使用Javascript。
阅读页面并使用Jsoup进行解析的示例:
7fhtutme2#
使用一个div,你可以在其中
load
你的链接(这里的例子是如何做的http://api.jquery.com/load/)。加载完成后,您可以检查网页中使用的div或span的名称,并使用
val
(http://api.jquery.com/val/)或text
(http://api.jquery.com/text/)获取该内容rjjhvcjd3#
以下是www.example.com主页上的文本www.isbn.nu:
请注意,isbn.nu是为个人手动搜索而设计的。它不打算作为自动检索的信息资源,也不作为公司的研究工具。isbn.nu保留拒绝过度请求访问的权利。
为什么不使用免费的API以XML格式返回图书的详细信息呢?Java中有许多类可以解析XML提要,这会使您的生活变得更加轻松。
有关详细信息,请参见http://code.google.com/apis/books/。
mbyulnm04#
以下是所需的步骤:
1.创建CURL请求(可以使用多个curl请求)
1.获取主体数据
1.解析数据
1.制作excel文件
您可以使用此**guide**读取HTML信息。
s3fp2yjn5#
一个简单的解决方案可能是使用谷歌文档的电子表格函数,如
ImportXML(URL,path-expression)
。更多信息和示例: