python—通过相似性百分比比较Dataframe中的值

jvidinwx 于 2021-07-13 发布在 Java

关注(0)|答案(0)|浏览(282)

我试图找到一种方法来比较相同Dataframe的值。有一个名为urlscleaned的列。它有它的网址，我想使它，如果两个网址在两个单独的行有至少85%的匹配值，并有完全相同的用户名在他们的行，然后我将建立一个边缘这两个网址节点。我不寻求帮助，使图表，但从逻辑上讲，我如何比较值在同一个Dataframe？我希望能够改变URL之间的相似性，找到最适合我的用例的百分比。

import csv
import twint
import datetime
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import nest_asyncio
import networkx as nx
import re

nest_asyncio.apply()

NWO_data = pd.read_csv("TwitterLinksNWO.csv")
NWO_data["urlsCleaned"] = NWO_data["urls"]
NWO_data["urlsCleaned"] = NWO_data["urlsCleaned"].str.replace('wrestling', '4444')
NWO_data["urlsCleaned"] = NWO_data["urlsCleaned"].str.replace('aarp.org', '4444')

NWO_data = NWO_data[~NWO_data.urlsCleaned.str.contains("4444")]

下面的信息是为了理解Dataframe是如何设置的。这些是dataframe中的两行和列的标题名的示例。
用户名tweetLanguagementSurlsReplies\u countretweets\u countlikes\u counthashtagslinkretweettristan\u dupreetristan du preemy 2016年亮点？明确的nwo vid…en[]['https://twitter.com/i/moments/81329125861769...01123['higgsoa']https://twitter.com/tristan_dupree/status/8147...falsebobbyxtremebobby xtremeget从@realkevinna…en[{'screen\u name'：'realkevinnash'，'name'：'kev…['http://celebvm.com/kevinnash']11134['nwo'、'wwe'、'wcw'、'tna'、'ecw'，“神奇的。。。https://twitter.com/bobbyxtreme/status/8135537...false
我该如何编写代码呢？

python DataFrame pandas logic similarity

来源：https://stackoverflow.com/questions/67287812/comparing-values-in-a-dataframe-by-similarity-percentage

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

python—通过相似性百分比比较Dataframe中的值

暂无答案！

相关问题

热门标签

最新问答