在java中删除段落标记

nuypyhwy 于 2021-07-08 发布在 Java

关注(0)|答案(1)|浏览(420)

我有一个java程序，可以用htmlunit从网上下载一些文件。
我正在尝试将这些文件格式化为csv/excel表格。
我的问题是，我似乎无法得到格式相当正确；一个数据被排序为标题而不是示例。
我可以用微软的word告诉你段落符号就是问题所在。但是，我不确定这在java中是什么意思。不适用于newline。
段落符号（ascii:alt-244）在java中翻译成什么？如何删除或添加此符号以获得正确的格式？
ps-trim（）不在其中。
谢谢您。

Java excel csv Html word

来源：https://stackoverflow.com/questions/63526151/removing-paragraph-tags-in-java

1条答案

按热度按时间

eanckbw91#

unicode符号244是ô. ascii表从0到127，或多或少。
因此，本声明：
段落符号是什么（ascii:alt-244）
表示您感到困惑。没有ascii码。如果您的意思是unicode:244不是段落符号。如果你是指iso-8859-1：那一个也有ô 在现场。cp1252也是。麦克罗曼有ù. 我开始用完常用的编码，所以不管你有一个奇怪的变种我不知道。
ibm852和ibm850具有§, 但是在245点所以大概你误会了什么，这是ibm852，因为这太巧合了。
注意ibm850字符集来自dos时代。你是在和博物馆里的机器说话吗？那是。。一个该死的过时的角色！
你所拥有的是文本，编码为字节。那是。。正常情况下，计算机会处理字节。然而，任何时候你把你的字节解释成字符，你必须告诉计算机怎么做。如果你不这样做，计算机会猜测，你可以放心地假设计算机会猜错，把你搞砸：它会在你的机器上工作，通过你的测试，然后在运行时失败。解决办法是永远不要让电脑猜。每当字节转换为字符或反之亦然时，总是指定一个字符集，或确保显式地记录您使用的方法来选择一个已定义的字符集。
例如，如果Web服务器的响应是字节数组，并且要将其转换为字符串，则：

byte[] data = htmlResponse.getAllData();
String html = new String(bytes); // Don't ever call this constructor.
String html = new String(bytes, "IBM-852"); // Correct!

如果您是从html获取这些内容，那么字符集将出现在响应头中。它应该为你解决这个问题；显然不是这样，听起来像是有问题的web服务器被窃听，并发送错误的字符集数据。或者你的代码被窃听了，你自己把编码转换搞砸了。
它只是一个符号，java中的字符串或多或少都是unicode。一旦你正确地阅读了它（我敢打赌你没有，这是问题的一部分），如果你想删除它，这是微不足道的：

byte[] data = htmlResponse.getAllData();
String html = new String(bytes, "IBM-852");

// replace the § symbol with nothing (i.e. remove it)
html = html.replace("§", "");

注意：做字符集最简单的方法就是用utf-8编码所有的东西。尤其是网络。如果你能和网站的所有者或者为其编写软件的人交谈，你应该告诉他们这样做。

赞(0）回复(0）举报 2021-07-09

我来回答

在java中删除段落标记

1条答案

相关问题

热门标签

最新问答