从NodeJS中的iso-8859-1字符集解码XML/HTML实体

czq61nw1 于 2023-01-30 发布在 Node.js

关注(0)|答案(1)|浏览(126)

我正在从一个SOAP操作接收波兰语文本，该操作将波兰语发音符号编码为XML实体，但据我所知，它们不是用UTF-8编码的，而是用ISO-8859 - 1编码的，我正在NodeJS中努力正确地解码它们。
示例文本：Borek FaÅÄcki
预期解码结果：Borek Fałęcki
当前结果：Borek FaÅ‚Ä™cki
虽然我在PHP中使用以下代码实现了正确的结果：

echo html_entity_decode('Borek Fa&#197;&#130;&#196;&#153;cki', ENT_QUOTES | ENT_SUBSTITUTE | ENT_XML1, 'ISO-8859-1');

我在NodeJS中做同样的事情时运气不好，没有太多完整的包来帮助解码html/xml实体，我使用了entites和html-entities，但它们提供了相同的结果，而且似乎都没有任何字符集设置。

const { decode, encode } = require('html-entities');
const entities = require('entities');

const txt = 'Borek Fa&#197;&#130;&#196;&#153;cki';
console.log('html-entities decode', decode(txt));
console.log('utf8-encoding', encode('Borek Fałęcki', {
    mode: 'nonAsciiPrintable',
    numeric: 'decimal',
    level: 'xml',
}));
console.log('entities decode', entities.decodeXML(txt));

输出：

html-entities decode Borek FaÅ‚Ä™cki
utf8-encoding Borek Fa&#322;&#281;cki
entities decode Borek FaÅ‚Ä™cki

正如我们所看到的，当使用UTF-8编码时，每个字符都有一个实体：

&#322; = ł
&#281; = ę

在ISO-8859 - 1中，每个字符有2个实体。我不知道如何获得与PHP相同的解码结果。如果没有实体，我可以将编码转换为UTF-8，但对于实体，我不知道如何正确地进行转换。我无法让对方向我发送UTF-8，因为这是一个封闭的旧协议，我无法控制。

node.js

来源：https://stackoverflow.com/questions/75258221/decode-xml-html-entities-from-iso-8859-1-charset-in-nodejs

1条答案

按热度按时间

ybzsozfc1#

Borek Fałęcki的正确XML编码是Borek Fałęcki。您收到的SOAP操作XML编码错误。
但是，下面的表达式将根据需要对其进行转换：

Buffer.concat(
  "Borek Fa&#197;&#130;&#196;&#153;cki"
  .match(/[^&]+|&#\d+;/g)
  .map(c => c[0] === "&"
    ? Buffer.of(Number(c.substring(2, c.length - 1)))
    : Buffer.from(c))
).toString()

赞(0）回复(0）举报 2023-01-30

我来回答

从NodeJS中的iso-8859-1字符集解码XML/HTML实体

1条答案

相关问题

热门标签

最新问答