python Beautifulsoup无法解析word中创建的htm?

k2arahey  于 2023-03-28  发布在  Python
关注(0)|答案(1)|浏览(139)

我创建了一个.htm文件(没有数据文件夹的剥离类型)在MS Word 365.我曾经创建这些类型的文件,并加载到一个.py脚本所有的时间使用bs4,但现在它不工作的一些原因.这可能是由于我写一个以前的版本到一个新的文件与errors='ignore',但我不确定.现在当我读它,在所有内容之间都有一堆空格,所以我猜有某种空格字符,它不存在于我用来读取文件的编码中?
下面是link to the public repository where I keep my project
在那里,最小的工作示例包含在FOR_SO.py脚本中。.htm文件名为“broken.htm”。我也会在这里发布最小的代码,但文件太大,无法在这里上传。
我怎么把它弄坏的这么严重?

from bs4 import BeautifulSoup

def html_parser(path):

    '''Opens the template.htm and returns it as a bs4 Object'''

    with open(path,'r') as inf:
        soup = BeautifulSoup(inf,'html.parser')
    
    return soup

resource = html_parser('broken.htm')
print(resource)
table = template.findAll('table')[-1]
print(table)

编辑:我意识到字符“〈”和“〉”被读取为“〉”和“〈"。这些是转义字符吗?我如何正确地读取这些字符?我可以用不同的编解码器再次保存文件吗?

jq6vz3qz

jq6vz3qz1#

好吧,我把它修好了,它出奇的简单:
我只是简单地将notepad++中的entrie文本复制粘贴到一个新文件中,并将其保存为. txt。该文件在notepad中看起来很好,所以我希望将其保存在一个新文件中可以解决编码问题。然后我只需将扩展名更改为.htm并再次运行代码。Easy-peasy。

相关问题