python Beautifulsoup无法解析word中创建的htm？

k2arahey 于 2023-03-28 发布在 Python

关注(0)|答案(1)|浏览(139)

我创建了一个.htm文件（没有数据文件夹的剥离类型）在MS Word 365.我曾经创建这些类型的文件，并加载到一个.py脚本所有的时间使用bs4，但现在它不工作的一些原因.这可能是由于我写一个以前的版本到一个新的文件与errors='ignore'，但我不确定.现在当我读它，在所有内容之间都有一堆空格，所以我猜有某种空格字符，它不存在于我用来读取文件的编码中？
下面是link to the public repository where I keep my project：
在那里，最小的工作示例包含在FOR_SO.py脚本中。.htm文件名为“broken.htm”。我也会在这里发布最小的代码，但文件太大，无法在这里上传。
我怎么把它弄坏的这么严重？

from bs4 import BeautifulSoup

def html_parser(path):

    '''Opens the template.htm and returns it as a bs4 Object'''

    with open(path,'r') as inf:
        soup = BeautifulSoup(inf,'html.parser')
    
    return soup

resource = html_parser('broken.htm')
print(resource)
table = template.findAll('table')[-1]
print(table)

编辑：我意识到字符“〈”和“〉”被读取为“〉”和“〈"。这些是转义字符吗？我如何正确地读取这些字符？我可以用不同的编解码器再次保存文件吗？

python

来源：https://stackoverflow.com/questions/75858239/beautifulsoup-cannot-parse-htm-created-in-word