如何处理维基百科转储中的重定向?

hujrc8aj  于 2021-06-21  发布在  Mysql
关注(0)|答案(1)|浏览(426)

我已经使用本指南成功地将enwiki-latest-pages-articles-multistream.xml页面导入mysql。
当我查找一个页面的文本(这里描述的过程)时,它通常是 #REDIRECT [[some_page_name]] . 我所知道的遵循此重定向的唯一方法是在所有页面标题中搜索 some_page_name . 这不仅是浪费时间,但有时有多篇文章下完全相同的标题名!
我正在考虑从数据库中删除所有重定向页。
但在此之前,有没有更好的方法来处理这些重定向?

ijnw1ujt

ijnw1ujt1#

据我所知,您需要确定重定向的目标是什么。正确的?。如果是,则可以使用以下查询获取:

select rd_title from redirect
inner join page
on page_id = rd_from
where page_title like "some_page_name"

rd\u标题是重定向的目标页。
如果我错了,请纠正我。

相关问题