从网站上读取信息并存储在excel文件中

e7arh2l6 于 2023-01-10 发布在其他

关注(0)|答案(5)|浏览(118)

我正在尝试构建这个应用程序，当提供一个.txt文件填充isbn编号时，isbn.nu只需将isbn附加到url www.isbn.nu/*your isbn编号 *，即可访问www.example.com页面。
拉出页面后，我想扫描它以获取有关这本书的信息，并将其存储在Excel文件中。
我想用Java创建一个url的文件流，但是我不确定如何从html页面中提取信息。存储信息将使用JExcel Java包完成。
我最好的猜测是使用javascript来提取信息，但是我不知道如何从我的java程序中调用javascript。
我的想法可信吗？如果不可信，你们建议我怎么做。
我的目标：从html页面中检索信息，并将其存储在excel文件中，每个ISBN都存储在一个文本文件中。2一个文本文件中可以有任意数量的ISBN。
顺便说一句，这不是家庭作业，我只是为一个向苏丹捐赠书籍的组织做这件事。目前他们有5个人手工编目这些书，我是其中之一。

excel

来源：https://stackoverflow.com/questions/9121836/read-information-off-website-and-store-in-excel-file

5条答案

按热度按时间

9njqaruj1#

Jsoup是一个解析网页并从中获取数据的有用工具，你可以用Java来做，而且非常简单。
你可以解析文本文件，用字符串构建URL，用JSoup发送它，然后用JSoup解析页面上的html标签信息。然后你可以随心所欲地存储它。如果你对Java更熟悉，你真的根本不需要使用Javascript。
阅读页面并使用Jsoup进行解析的示例：

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

赞(0）回复(0）举报 2023-01-10

7fhtutme2#

使用一个div，你可以在其中load你的链接（这里的例子是如何做的http://api.jquery.com/load/）。
加载完成后，您可以检查网页中使用的div或span的名称，并使用val（http://api.jquery.com/val/）或text（http://api.jquery.com/text/）获取该内容

赞(0）回复(0）举报 2023-01-10

rjjhvcjd3#

以下是www.example.com主页上的文本www.isbn.nu:
请注意，isbn.nu是为个人手动搜索而设计的。它不打算作为自动检索的信息资源，也不作为公司的研究工具。isbn.nu保留拒绝过度请求访问的权利。
为什么不使用免费的API以XML格式返回图书的详细信息呢？Java中有许多类可以解析XML提要，这会使您的生活变得更加轻松。
有关详细信息，请参见http://code.google.com/apis/books/。

赞(0）回复(0）举报 2023-01-10

mbyulnm04#

以下是所需的步骤：

1.创建CURL请求（可以使用多个curl请求）
1.获取主体数据
1.解析数据
1.制作excel文件
您可以使用此**guide**读取HTML信息。

赞(0）回复(0）举报 2023-01-10

s3fp2yjn5#

一个简单的解决方案可能是使用谷歌文档的电子表格函数，如ImportXML(URL,path-expression)。
更多信息和示例：

赞(0）回复(0）举报 2023-01-10