gensim 关于remove_markup的bug

zqry0prt  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(31)

在调用gensim.corpora.wikicorpus.filter_wiki之后,仍有一些字符没有被去除。

在去除RE_P1之前,应该去除以下字符:

2022年末,全省总人口为2347.69万人 https://www.hongheiku.com/sjrk/1059.html,其中城镇常住人口1496.18万人,占总人口比重(常住人口城镇化率)为63.73%,比上年末提高0.37个百分点。户籍人口城镇化率为49.08%。全年出生人口10.23万人,出生率为4.33‰;死亡人口19.84万人,死亡率为8.40‰;自然增长率为-4.07‰。人口性别比为99.83(以女性为100)。
罗宾斯认为,此定义注重的不是以经济学“研究某些行为”,而是要以分析的Angular 去“研究行为是如何被资源有限的条件所改变”。一些人批评此定义过于广泛,而且无法将分析范畴局限在对于市场的研究上。然而,自从1960年代起,由于理性选择理论和其引发的赛局理论不断将经济学的研究领域扩大,这个定义已为世所知 Stigler, George J. (1984). "Economics—The Imperial Science?" ''Scandinavian Journal of Economics'', 86(3), pp. 301-313.,但仍有对此定义的批评。

2022年末,全省总人口为2347.69万人,其中城镇常住人口1496.18万人,占总人口比重(常住人口城镇化率)为63.73%,比上年末提高0.37个百分点。户籍人口城镇化率为49.08%。全年出生人口10.23万人,出生率为4.33‰;死亡人口19.84万人,死亡率为8.40‰;自然增长率为-4.07‰。人口性别比为99.83(以女性为100)。
罗宾斯认为,此定义注重的不是以经济学“研究某些行为”,而是要以分析的Angular 去“研究行为是如何被资源有限的条件所改变”。一些人批评此定义过于广泛,而且无法将分析范畴局限在对于市场的研究上。然而,自从1960年代起,由于理性选择理论和其引发的赛局理论不断将经济学的研究领域扩大,这个定义已为世所知,但仍有对此定义的批评。

ryevplcw

ryevplcw1#

感谢您的报告和可重现代码!
在查看代码时,更基本的问题可能是 RE_P1 (对于 REF 标签)假设任何 /> 都以标签结尾,就好像永远不会有任何嵌套标签一样——但在您的示例片段中, <NOWIKI/><BR/> 标签确实出现了。您建议的修复似乎只会解决您已经看到的一些情况的问题——而任何其他以 /> 结尾的标签意外嵌套的风险可能会触发相同的问题。
看起来 RE_P9(描述为“外部链接”)和 RE_P10(数学)共享类似的假设,即任何 /> 必须以感兴趣的标签结尾,而不是某些嵌套标签,因此可能容易受到同样的问题影响。
我认为最好调整这些正则表达式,不要假定所有嵌套标签的缺失,但这可能会带来其他副作用,或者需要对步骤进行其他重新排序——我不确定现有的正则表达式为什么是这样工作的,使用正则表达式处理 HTML 或维基百科的奇怪的 wikitext 格式是一种固有的笨拙且难以维护的方法。
将某种形式的 RE_P11("所有其他标签")提前到过程中可能是最稳健的方法,但缩小范围保留任何特定的感兴趣标签。

cbwuti44

cbwuti442#

感谢您的报告和可重现代码!
在查看代码时,更基本的问题可能是 RE_P1 (对于 REF 标签)假设任何 /> 都以标签结尾,就好像永远不会有任何嵌套标签一样——但在您的示例片段中, <NOWIKI/><BR/> 标签确实出现了。您建议的修复似乎只会纠正您已经看到的少数情况问题——而其他任何以 /> 结尾的标签意外嵌套可能会触发相同的问题。
看起来 RE_P9(描述为“外部链接”)和 RE_P10(数学)共享类似的假设,即任何 /> 必须以感兴趣的标签结尾,而不是某些嵌套标签,因此可能容易受到同样的问题影响。
我认为最好调整这些正则表达式,不要假定不存在所有嵌套标签,但这可能会带来其他副作用,或者需要对步骤进行其他重新排序——我不确定现有的正则表达式为什么是这样工作的,使用正则表达式处理 HTML 或维基百科的奇怪的 wikitext 格式是一种固有的笨拙且难以维护的方法。
将某种形式的 RE_P11("所有其他标签")提前到处理过程中可能是最稳健的方法,但缩小范围以保留任何特定的感兴趣标签。
是的,我的建议并不完美。您有没有更好的方法来处理没有正则表达式的 HTML 或维基百科的奇怪 wikitext 格式?

相关问题