pandas 按财务表示法排序期限

fnatzsnv  于 2023-01-28  发布在  其他
关注(0)|答案(5)|浏览(118)

我有很多男高音

Tenors = np.array(['10Y', '15Y', '1M', '1Y', '20Y', '2Y', '30Y', '3M', '5Y', '6M', '9M'])

其中M代表月,Y代表年。正确的排序顺序(升序)为

['1M', '3M', '6M', '9M', '1Y', '2Y', '5Y', '10Y', '15Y', '20Y', '30Y']

如何使用python和scipy/numpy来实现这个目标?由于tenors源自pandas Dataframe ,因此基于pandas的解决方案也很好。

o8x7eapl

o8x7eapl1#

方法#1这是一个基于NumPy的方法,使用np.core.defchararray.replace-

repl = np.core.defchararray.replace
out = Tenors[repl(repl(Tenors,'M','00'),'Y','0000').astype(int).argsort()]

方法#2如果你要处理'18M'这样的字符串,我们需要做更多的工作,比如--

def generic_case_vectorized(Tenors):
    # Get shorter names for functions
    repl = np.core.defchararray.replace
    isalph = np.core.defchararray.isalpha

    # Get scaling values
    TS1 = Tenors.view('S1')
    scale = repl(repl(TS1[isalph(TS1)],'Y','12'),'M','1').astype(int)

    # Get the numeric values
    vals = repl(repl(Tenors,'M',''),'Y','').astype(int)

    # Finally scale numeric values and use sorted indices for sorting input arr
    return Tenors[(scale*vals).argsort()]

方法#3这里有另一种方法,虽然是一种循环的方法,但也可以处理一般情况-

def generic_case_loopy(Tenors):
    arr = np.array([[i[:-1],i[-1]] for i in Tenors])
    return Tenors[(arr[:,0].astype(int)*((arr[:,1]=='Y')*11+1)).argsort()]

样品运行-

In [84]: Tenors
Out[84]: 
array(['10Y', '15Y', '1M', '1Y', '20Y', '2Y', '30Y', '3M', '25M', '5Y',
       '6M', '18M'], 
      dtype='|S3')

In [85]: generic_case_vectorized(Tenors)
Out[85]: 
array(['1M', '3M', '6M', '1Y', '18M', '2Y', '25M', '5Y', '10Y', '15Y',
       '20Y', '30Y'], 
      dtype='|S3')

In [86]: generic_case_loopy(Tenors)
Out[86]: 
array(['1M', '3M', '6M', '1Y', '18M', '2Y', '25M', '5Y', '10Y', '15Y',
       '20Y', '30Y'], 
      dtype='|S3')
sdnqo3pr

sdnqo3pr2#

您可以使用str.extract来解析数字和值,然后按astype和最后sort_values转换为intcategories

df = pd.DataFrame({'a':Tenors})
df[['b','c']] = df.a.str.extract("(\d+)([MY])", expand=True)
df.b = df.b.astype(int)
df.c = df.c.astype('category', ordered=True, categories=['M','Y'])
df = df.sort_values(['c','b'])
print (df)
      a   b  c
2    1M   1  M
7    3M   3  M
9    6M   6  M
10   9M   9  M
3    1Y   1  Y
5    2Y   2  Y
8    5Y   5  Y
0   10Y  10  Y
1   15Y  15  Y
4   20Y  20  Y
6   30Y  30  Y

print (df.a.tolist())
['1M', '3M', '6M', '9M', '1Y', '2Y', '5Y', '10Y', '15Y', '20Y', '30Y']
gmol1639

gmol16393#

print sorted(Tenors, key=lambda Tenors: (Tenors[-1], int(Tenors[:-1])))

先按最后一个字符排序,然后按整数值排序,直到最后一个字符

h4cxqtbf

h4cxqtbf4#

我选择了长解,因为我无论如何都需要convert_tenors,这也解决了Jim的反对意见。

import scipy

def convert_tenors(tenors):
    #convert tenors to years
    new_tenors = scipy.zeros_like(tenors,dtype=float)
    for i,o in enumerate(tenors):
        if(o[-1]=='M'):
            new_tenors[i] = int(o[:-1])/12
        else:
            new_tenors[i] = int(o[:-1])
    return new_tenors

def sort_tenors(tenors):
    #sort tenors in ascending order
    idx = scipy.argsort(convert_tenors(tenors))
    return tenors[idx]  

Tenors = scipy.array(['10Y', '15Y', '1M', '1Y', '20Y', '18M', '2Y', '30Y', '3M', '5Y', '6M', '9M'])
print(sort_tenors(Tenors))

退货

['1M' '3M' '6M' '9M' '1Y' '18M' '2Y' '5Y' '10Y' '15Y' '20Y' '30Y']
2q5ifsrm

2q5ifsrm5#

一个简单的解决方案,将期限转换为等价日,然后以此为基础进行排序:

def tenorToDays(tenor):
    unit = tenor[-1:].lower()
    value = int(tenor[0:-1])
    if unit == 'w':
        return 7*value
    elif unit == 'm':
        return 30*value
    elif unit == 'y':
        return 365*value
    else:
        raise ValueError(f'Unrecognised tenor unit: ({unit})')

tenors = ['10Y', '15Y', '1M', '1Y', '20Y', '2Y', '30Y', '3M', '5Y', '6M', '9M', '18M']
sorted(tenors, key=lambda tenor: tenorToDays(tenor))
# ['1M', '3M', '6M', '9M', '1Y', '18M', '2Y', '5Y', '10Y', '15Y', '20Y', '30Y']

相关问题