python—通过相似性百分比比较Dataframe中的值

jvidinwx  于 2021-07-13  发布在  Java
关注(0)|答案(0)|浏览(263)

我试图找到一种方法来比较相同Dataframe的值。有一个名为urlscleaned的列。它有它的网址,我想使它,如果两个网址在两个单独的行有至少85%的匹配值,并有完全相同的用户名在他们的行,然后我将建立一个边缘这两个网址节点。我不寻求帮助,使图表,但从逻辑上讲,我如何比较值在同一个Dataframe?我希望能够改变URL之间的相似性,找到最适合我的用例的百分比。

import csv
import twint
import datetime
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import nest_asyncio
import networkx as nx
import re

nest_asyncio.apply()

NWO_data = pd.read_csv("TwitterLinksNWO.csv")
NWO_data["urlsCleaned"] = NWO_data["urls"]
NWO_data["urlsCleaned"] = NWO_data["urlsCleaned"].str.replace('wrestling', '4444')
NWO_data["urlsCleaned"] = NWO_data["urlsCleaned"].str.replace('aarp.org', '4444')

NWO_data = NWO_data[~NWO_data.urlsCleaned.str.contains("4444")]

下面的信息是为了理解Dataframe是如何设置的。这些是dataframe中的两行和列的标题名的示例。
用户名tweetLanguagementSurlsReplies\u countretweets\u countlikes\u counthashtagslinkretweettristan\u dupreetristan du preemy 2016年亮点?明确的nwo vid…en[]['https://twitter.com/i/moments/81329125861769...01123['higgsoa']https://twitter.com/tristan_dupree/status/8147...falsebobbyxtremebobby xtremeget从@realkevinna…en[{'screen\u name':'realkevinnash','name':'kev…['http://celebvm.com/kevinnash']11134['nwo'、'wwe'、'wcw'、'tna'、'ecw',“神奇的。。。https://twitter.com/bobbyxtreme/status/8135537...false
我该如何编写代码呢?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题