python-3.x 如何准备Pandas的纵向数据,然后用于学习算法?

pcww981p  于 2023-02-14  发布在  Python
关注(0)|答案(2)|浏览(132)

我正在使用Pandas来清理和准备我的数据集,以供学习算法使用,如用于分类的随机森林或用于聚类的K均值。
我曾经有过这样的数据集(举例说明):

然而,我在我的数据集中遇到了一种不同的类型,称为:纵向数据,如下图所示:

如您所见,对于每个示例(person或car),同一个特征都有多个值,其中每个值都是在特定时间点添加的。
这是数据集中经过编辑的示例:

"ID","Temperature","***",
"001","36","***",
"001","36","***",
"001","37","***",
"001","36","***",
"002","38","***",
"002","38","***",
"002","36","***",
...
"004","37","***",
"004","37","***",
"005","36","***",
"005","36","***",

其中,相同ID的每次重复都意味着获取数据的日期不同-在我们的示例中,数据是温度。
如何使用Pandas来准备这类数据,使其对随机森林这样的学习算法有用?如果Pandas没有办法,你有没有建议一种能够处理这类数据的学习算法?谢谢。

fkaflof6

fkaflof61#

您必须根据ID对分区进行分组,然后使用任何算法。此分区策略将确保每个ID(CustomerID等)都保留在各自的训练集或测试集中。

svdrlsy4

svdrlsy42#

这个堆栈溢出问题已经被问了很长很长的时间,但是我想提供一个非常广泛的答案来帮助社区解决这个问题-或者可能是这个问题的作者,但是考虑到这个问题是在七年前问的,我假设作者已经找到了一个解决方案。
您正在处理纵向数据,这不是传统机器学习算法的主要关注点,正如@greymatter所述,您可以尝试使用数据转换技术来扁平化您的数据。使其适合于与传统的机器学习方法一起使用。这种方法的优点是,有许多机器学习技术可用于您的展平数据,作为然而,这是以丢失数据的时间上下文为代价的,如果数据的时间演变是至关重要的考虑因素(大多数情况下是医疗保健应用上下文),这可能是灾难性的。
在这种情况下,ML算法设计者最近越来越关注算法自适应。算法自适应,修改现有的ML算法,使其可以直接考虑数据的时间上下文,而不会将其扁平化为“基于静态的格式”,因此,在整个数据集中放松时间上下文。优点是考虑了时间上下文,但缺点是几乎没有可行的算法。为了简单起见,我还结合了专门为这类纵向数据构建的ML技术,尽管事实上它们不是自适应的,而是自下而上设计的,以获取时间索引数据。
在实践中,有很多方法可以用来扁平化数据,但是[1]提出了三种基本的方法来扁平化数据,以便将其应用到传统的ML算法中。如[1]的第一张图所示,@greymatter策略被包括作为扁平化数据的方法,以便使用传统的ML算法。
因此,对于算法自适应,以下是作者修改最多的几个建议 [2,3,4,5,6,7,8,9,10](基于树的)标准ML算法来考虑对象随时间的时间上下文/时间进展。因此,这仍然需要将数据变换为可计算地计算,和[1]给出了转换数据同时保留时间索引的最终解决方案,使得定制算法设计者能够在设计新的适应算法的同时跟踪时间的演变。
此回复仅旨在指导您如何实施此类数据或向新读者介绍。机器学习x纵向数据是一个相当新的科学主题,仍有许多工作要做。而统计x纵向数据则要古老得多,但在这里,我们将重点放在ML而不是统计上,以明确这一点。因此,如果您想为自己或其他读者在答案中添加其他信息,请随时发表评论。
希望这能有所帮助,以下是参考资料:

  • [1] Ribeiro,C.和Freitas,A.A.,2019年。处理老龄化相关纵向数据集的监督机器学习方法的小型调查。作为IJCAI-2019的一部分举办的第三届人工智能老龄化、康复和独立辅助生活研讨会(ARIAL)(第5页)。温哥华

  • [2] Ribeiro,C.和Freitas,A.,2020年12月。一种新的随机森林方法,用于使用字典序双目标方法进行纵向数据分类。2020年IEEE计算智能研讨会系列(SSCI)(第806-813页)。IEEE。

  • [3] Ribeiro,C.和Freitas,A.A.,2021。纵向数据集的数据驱动缺失值插补方法。人工智能评论,第1 -31页。温哥华

  • [4] Jie,B.,Liu,M.,Liu,J.,Zhang,D. and Shen,D.,2016.阿尔茨海默病纵向数据分析的时间约束分组稀疏学习. IEEE生物医学工程学报,64(1),pp.238-249.温哥华

  • [5] Du,W.,Cheung,H.,Json,C.A.,Goldberg,I.,Thambisetty,M.和Becker,K.,2015年11月。ALS评分预测的纵向支持向量回归。2015年IEEE生物信息学和生物医学国际会议(BIBM)(第1586-1590页)。IEEE。温哥华

  • [6] Adhikari,S.,Lecci,F.,Becker,J.T.,Junker,B.W.,Kuller,L.H.,洛佩斯,O.L.和Tibshirani,R. J.,2019年。使用多项式融合套索的高维纵向分类。医学统计学,38(12),第2184 -2205页。温哥华

  • [7] Huang,L.,Jin,Y.,Gao,Y.,Thung,K.H.,Shen,D.和阿尔茨海默病神经影像学倡议,2016。使用基于随机森林的软分裂稀疏回归预测阿尔茨海默病的纵向临床评分。衰老神经生物学,46,pp.180-191。温哥华

  • [8] Radovic,M.,Ghalwash,M.,Filipovic,N.和Obradovic,Z.,2017.时间基因表达数据的最小冗余最大相关特征选择方法. BMC生物信息学,18(1),pp.1-14.温哥华

  • [9] Pomsuwan,T.和Freitas,A.A.,2017年11月。纵向人类老龄化数据分类的特征选择。2017年IEEE国际数据挖掘研讨会(ICDMW)(第739-746页)。IEEE。温哥华

  • [10] Ovchinnik,S.、Otero,F.和Freitas,A.A.,2022年4月,《纵向分类的嵌套树》,第37届ACM/SIGAPP应用计算研讨会论文集(第441-444页),温哥华

  • 要了解更多信息,请输入纵向数据分类,跟随社区思想谷歌学者。*

相关问题