首页技术博客 PHP教程数据库技术前端开发 HTML5 Nginx php论坛

新用户注册 | 会员登录

热门标签 | HotTags

当前位置: 开发笔记 > 编程语言 > 正文

esprocvspython5

作者：温尧乔761975 | 来源：互联网 | 2023-07-12 18:04

1.列出分期贷款明细题目介绍：loan表存储着贷款信息，包括贷款ID，贷款总额、按月分期数、年利率。数据如下：我们的目的是

1. 列出分期贷款明细
题目介绍&＃xff1a;loan 表存储着贷款信息&＃xff0c;包括贷款 ID&＃xff0c;贷款总额、按月分期数、年利率。数据如下&＃xff1a;
我们的目的是列出各期明细&＃xff0c;包括&＃xff1a;当期还款额、当期利息、当期本金、剩余本金。
esproc

A

1

&＃61;now()

2

&＃61;file("C:\\Users\\Sean\\Desktop\\kaggle_data\\music_project_data\\loan.csv").import&＃64;t()

3

&＃61;A2.derive(Rate/100/12:mRate,LoanAmtmRatepower((1&＃43;mRate),Term)/(power((1&＃43;mRate),Term)-1):mPayment)

4

&＃61;A3.news((t&＃61;LoanAmt,Term);LoanID, LoanAmt, mPayment:payment, Term, Rate, t* mRate:interest, payment-interest:principal, t&＃61;t-principal:principlebalance)

5

&＃61;interval&＃64;ms(A1,now())

A3&＃xff1a;T.derive()新增两列月利率mRate&＃61;年利率/12,每期还款数mPayment&＃61;总利息/((1&＃43;月利率)的期数次幂)-1
A4&＃xff1a;A.news(X;xi:Fi,…)&＃xff0c;根据序表/排列A&＃xff0c;计算排列X后把计算后的字段合并到一个新的序表/排列&＃xff0c;Fi为新字段名&＃xff0c;xi为计算结果&＃xff0c;Fi省略自动识别。当参数xi使用#i时&＃xff0c;表示第i列&＃xff0c;此时使用原列名。这里解释一下&＃xff0c;将t的初始值设置为A3中的LoanAmt的值作为初始的本金&＃xff0c;然后建立新表&＃xff0c;其中利息interest&＃61;本金月利率mRate&＃xff0c;当期偿还的本金principal等于每期还款数payment-利息&＃xff0c;剩余的本金&＃61;本金t-当期偿还的本金&＃xff0c;然后把剩余的本金更新到t作为下一期的本金。
python&＃xff1a;
import time
import numpy as np
import pandas as pd
s &＃61; time.time()
loan_data &＃61; pd.read_csv(&＃39;C:\\Users\\Sean\\Desktop\\kaggle_data\\music_project_data\\loan.csv&＃39;,sep&＃61;&＃39;\t&＃39;)
loan_data[&＃39;mrate&＃39;] &＃61; loan_data[&＃39;Rate&＃39;]/(10012)
loan_data[&＃39;mpayment&＃39;] &＃61; loan_data[&＃39;LoanAmt&＃39;]loan_data[&＃39;mrate&＃39;]np.power(1&＃43;loan_data[&＃39;mrate&＃39;],loan_data[&＃39;Term&＃39;]) \
                        /(np.power(1&＃43;loan_data[&＃39;mrate&＃39;],loan_data[&＃39;Term&＃39;])-1)
loan_term_list &＃61; []
for i in range(len(loan_data)):
    loanid &＃61; np.tile(loan_data.loc[i][&＃39;LoanID&＃39;],loan_data.loc[i][&＃39;Term&＃39;])
    loanid &＃61; np.tile(loan_data.loc[i][&＃39;LoanID&＃39;],loan_data.loc[i][&＃39;Term&＃39;])
    loanamt &＃61; np.tile(loan_data.loc[i][&＃39;LoanAmt&＃39;],loan_data.loc[i][&＃39;Term&＃39;])
    term &＃61; np.tile(loan_data.loc[i][&＃39;Term&＃39;],loan_data.loc[i][&＃39;Term&＃39;])
    rate &＃61; np.tile(loan_data.loc[i][&＃39;Rate&＃39;],loan_data.loc[i][&＃39;Term&＃39;])
    payment &＃61; np.tile(np.array(loan_data.loc[i][&＃39;mpayment&＃39;]),loan_data.loc[i][&＃39;Term&＃39;])
    interest &＃61; np.zeros(len(loanamt))
    principal &＃61; np.zeros(len(loanamt))
    principalbalance &＃61; np.zeros(len(loanamt))
    loan_amt &＃61; loanamt[0]
    for j in range(len(loanamt)):
        interest[j] &＃61; loan_amtloan_data.loc[i][&＃39;mrate&＃39;]
        principal[j] &＃61; payment[j] - interest[j]
        principalbalance[j] &＃61; loan_amt - principal[j]
        loan_amt &＃61; principalbalance[j]
    loan_data_df &＃61; pd.DataFrame(np.transpose(np.array([loanid,loanamt,term,rate,payment,interest,principal,principalbalance])),
                columns &＃61; [&＃39;loanid&＃39;,&＃39;loanamt&＃39;,&＃39;term&＃39;,&＃39;rate&＃39;,&＃39;payment&＃39;,&＃39;interest&＃39;,&＃39;principal&＃39;,&＃39;principalbalance&＃39;])
    loan_term_list.append(loan_data_df)
loan_term_pay &＃61; pd.concat(loan_term_list,ignore_index&＃61;True)
print(loan_term_pay)
e &＃61; time.time()
print(e-s)
新增两列mrate和mpayment&＃xff0c;mpayment的计算方法和esproc的一样&＃xff0c;大家可以参考。
初始化一个空列表用于存放每一个贷款客户的数据。
循环数据
Df.loc[i][x]取索引为i字段名为x的数据&＃xff0c;tile(a,x)&＃xff0c;x是控制a重复几次的&＃xff0c;结果是一个一维数组。
同样的方法获得贷款的&＃39;loanid&＃39;,&＃39;loanamt&＃39;,&＃39;term&＃39;,&＃39;rate&＃39;,&＃39;payment&＃39;的字段值&＃xff0c;
初始化一个本金为loanamt的第一个元素。
for循环就是计算[&＃39;interest&＃39;,&＃39;principal&＃39;,&＃39;principalbalance&＃39;*]这三个字段值的方法&＃xff0c;思路和esproc的思路一样&＃xff0c;只不过esproc支持动态计算而python只能通过构造这个for循环来完成。
Np.array()将list格式的列表转换成数组。由于这里的行表示的是每一个字段的值&＃xff0c;np.transpose(a)是将数组a转置。pd.DataFrame()转成dataframe结构。
pd.concat()将每个贷款的分期信息合并成一个dataframe。
结果&＃xff1a;
esproc
python

耗时

esproc

0.005

python

0.034

2.不规则月份统计
题目介绍&＃xff1a;如果起始时间是 2014-01-10&＃xff0c;则将 2014-01-10 到 2014-02-09 作为一组&＃xff0c;将 2014-02-10 到 2014-03-9 作为一组。如果起始时间是 2014-01-31&＃xff0c;则将 2014-02-27 作为一组&＃xff0c;将 2014-02-28 到 2014-03-30 作为一组。数据如下&＃xff1a;
我们的目的是统计出不规则月份的销售额AMOUNT。
esproc

A

1

&＃61;now()

2

&＃61;file("C:\\Users\\Sean\\Desktop\\kaggle_data\\music_project_data\\order_date.csv").import&＃64;t()

3

&＃61;A2.select(date(date)>&＃61;startDate&&date(date)<&＃61;endDate)

4

&＃61;interval&＃64;m(startDate,endDate)

5

&＃61;startDate|A4.(after&＃64;m(startDate,~))

6

&＃61;A3.group(A5.pseg(date):ID;~.sum(AMOUNT):amount,A5(#):date)

7

&＃61;interval&＃64;ms(A1,now())

我们首先需要设置网格参数startDate&＃xff0c;endDate(程序——网格参数)
A3:筛选出指定时间的时间段
A4:按月计算开始时间和起始时间的间隔
A5:after(start,n)计算从开始时间以后的n天&＃xff0c;&＃64;m选项表示按月计算&＃xff0c;即开始时间以后的n个月。根据起始时间和日期间隔算出不规则月份的开始日期&＃xff0c;并将起始时间插入第1位。
A6: A.pseg(x)&＃xff0c;返回x在A中的哪一段&＃xff0c;缺省序列成员组成左闭右开的区间&＃xff0c;A必须为有序序列。 x非A成员时&＃xff0c;如果序列升序时x小于序列成员最小值(或序列降序时x大于序列成员最大值)则返回0&＃xff1b;如果序列升序时x大于等于序列成员最大值(或序列降序时x小于等于序列成员最小值)则返回序列长度。将日期所在分组作为ID&＃xff0c;销售额之和作为amount字段&＃xff0c;当前日期作为date字段&＃xff0c;形成序表。
python&＃xff1a;
import time
import pandas as pd
import numpy as np
import datetime
s &＃61; time.time()
starttime_s &＃61; &＃39;2012-11-29&＃39;
endtime_s &＃61; &＃39;2013-11-11&＃39;
starttime &＃61; datetime.datetime.strptime(starttime_s, &＃39;%Y-%m-%d&＃39;)
endtime &＃61; datetime.datetime.strptime(endtime_s, &＃39;%Y-%m-%d&＃39;)
orders &＃61; pd.read_csv(&＃39;C:\\Users\\Sean\\Desktop\\kaggle_data\\music_project_data\\order_date.csv&＃39;,sep&＃61;&＃39;\t&＃39;)
orders[&＃39;date&＃39;] &＃61; pd.to_datetime(orders[&＃39;date&＃39;])
orders&＃61;orders[orders[&＃39;date&＃39;]>&＃61;starttime]
orders&＃61;orders[orders[&＃39;date&＃39;]<&＃61;endtime]
date_index &＃61; pd.date_range(start &＃61; starttime,end&＃61;endtime,freq&＃61;&＃39;M&＃39;)
interv &＃61; date_index.day
date_list &＃61; []
date_amount &＃61; []
for i in range(len(interv)):
    if starttime>&＃61;date_index[i]:
        date_list.append(date_index[i])
    else:
        date_list.append(starttime)
    starttime &＃61; starttime &＃43; datetime.timedelta(days&＃61;int(interv[i]))
    if len(date_list)>1:
        by &＃61; orders[&＃39;date&＃39;].apply(lambda x:date_list[i]>x>&＃61;date_list[i-1])
        date_amount.append([orders[by][&＃39;AMOUNT&＃39;].sum(),date_list[i-1]])
by &＃61; orders[&＃39;date&＃39;].apply(lambda x:x>&＃61;date_list[i])
date_amount.append([orders[by][&＃39;AMOUNT&＃39;].sum(),date_list[i]])
date_amount_df &＃61; pd.DataFrame(date_amount,columns&＃61;[&＃39;amount&＃39;,&＃39;date&＃39;])
print(date_amount_df)
date_df &＃61; pd.Series(date_list)
e &＃61; time.time()
print(e-s)
小编没有找到pandas中自动生成不规则月份的方法&＃xff0c;所以是自己写的&＃xff0c;如果各位谁知道这种方法&＃xff0c;还请不吝赐教。
指定起始时间和终止时间
datetime.datetime.strptime(str, &＃39;%Y-%m-%d&＃39;)将字符串的日期格式转换为日期格式
pd.to_datetime()将date列转换成日期格式
筛选出指定时间段的数据
pd.date_range(start,end,freq)从开始时间到结束时间以freq的间隔生成时间序列&＃xff0c;这里是按月生成。(这里作出说明&＃xff0c;生成的序列成员是每个月的最后一天的日期)
date_index.day生成了这个序列中所有月份的天数
初始化两个list&＃xff0c;date_list用来存放不规则日期的起始时间&＃xff0c;date_amount用来存放各个时间段内的销售额和时间
循环月份总成的天数&＃xff0c;如果起始时间晚于这个月的最后一天&＃xff0c;则把这个月的最后一天放入date_list&＃xff0c;否则把起始时间放入&＃xff0c;然后更新起始时间为起始时间推迟该月的天数后的日期。
如果date_list中的日期数量大于1了&＃xff0c;生成一个数组&＃xff08;判断数据中每个日期是否在该段时间段内&＃xff0c;在为True&＃xff0c;否则为False&＃xff09;。
筛选出在该时间段内数据中的销售额AMOUNT字段&＃xff0c;求其和&＃xff0c;并将其和日期放入初始化的date_amount列表中。
pd.DataFrame()生成结果
结果&＃xff1a;
esproc
python

耗时

esproc

0.003

python

0.039

3.字段分段
题目介绍&＃xff1a;库表data有两个字段&＃xff0c;ID和ANOMOALIES&＃xff0c;数据如下&＃xff1a;

我们的目的是将ANOMOALIES字段按空格拆分为多个字符串&＃xff0c;每个字符串和原ID字段形成新的记录。
esproc

A

1

&＃61;now()

2

&＃61;file("C:\\Users\\Sean\\Desktop\\kaggle_data\\music_project_data\\split_field.csv").import&＃64;t()

3

&＃61;A2.news(ANOMALIES.split(" ");ID,~:ANOMALIES)

4

&＃61;interval&＃64;ms(A1,now())

A4&＃xff1a;news函数的用法在第一例中已经解释过&＃xff0c;这里不再赘述。
python&＃xff1a;
import time
import pandas as pd
import numpy as np
s &＃61; time.time()
split_field &＃61; pd.read_csv(&＃39;C:\\Users\\Sean\\Desktop\\kaggle_data\\music_project_data\\split_field.csv&＃39;,sep&＃61;&＃39;\t&＃39;)
split_dict &＃61; split_field.set_index(&＃39;ID&＃39;).T.to_dict(&＃39;list&＃39;)
split_list &＃61; []
for key,value in split_dict.items():
    anomalies &＃61; value[0].split(&＃39; &＃39;)
    key_array &＃61; np.tile(key,len(anomalies))
    split_df &＃61; pd.DataFrame(np.array([key_array,anomalies]).T,columns&＃61;[&＃39;ID&＃39;,&＃39;ANOMALIES&＃39;])
    #split_df &＃61; pd.DataFrame(np.transpose(np.array([key_array,anomalies])),columns&＃61;[&＃39;ID&＃39;,&＃39;ANOMALIES&＃39;])
    split_list.append(split_df)
split_field &＃61; pd.concat(split_list,ignore_index&＃61;True)
print(split_field)
e &＃61; time.time()
print(e-s)
df.set_index(F)设置索引为F&＃xff0c;df.T,将df的行列转置&＃xff0c;df.to_dict(‘list’)将dataframe转换成字典&＃xff0c;字段的key为df的字段名&＃xff0c;value为df的字段值形成的list。
初始化一个空list&＃xff0c;用于存放每个ANOMALIES字段拆分以后的dataframe
循环字典
将value的第一个元素按照空格切分&＃xff0c;形成一个列表anomalies
根据这个列表长度复制key的值&＃xff0c;形成数组key_array
将np.array([key_array,anomalies])将他们转换成数组&＃xff0c;array.T&＃xff0c;将数组转置(转置也可以用注释掉的那行代码np.traspose()函数)&＃xff0c;然后由pd.DataFrame()转成dataframe。
最后连接dataframe&＃xff0c;得到结果。
结果&＃xff1a;
esproc

python

耗时

esproc

0.002

python

0.013

4.增加增长率记录
esproc

A

1

&＃61;now()

2

&＃61;file("C:\\Users\\Sean\\Desktop\\kaggle_data\\music_project_data\\store_quantity.csv").import&＃64;t()

3

&＃61;A2.sort(Year).group(item).run(A2.record(["Growth Rate",item,~(2).quantity/~(1).quantity-1]))

4

&＃61;interval&＃64;ms(A1,now())

A4&＃xff1a;T.sort(x)&＃xff0c;按照x表达式排序&＃xff0c;T.group(x)按照x表达式分组。A.run(x)&＃xff0c;针对序列/排列A中每个成员计算表达式x。T.record(A,k) 从T中指定位置k的记录开始&＃xff0c;用A的成员依次修改T序表中记录的每个字段值&＃xff0c;k省略时从最后一条开始增加记录。~表示当前分组&＃xff0c;~(2)表示第二条记录即2015年的记录&＃xff0c;~(1)表示2014年的记录。这里的过程是先按照Year字段排序&＃xff0c;然后按照item分组&＃xff0c;然后新增两条记录&＃xff0c;分别是各种物品的增长率。
python&＃xff1a;
import time
import pandas as pd
import numpy as np
s &＃61; time.time()
store_q &＃61; pd.read_csv(&＃39;C:\\Users\\Sean\\Desktop\\kaggle_data\\music_project_data\\store_quantity.csv&＃39;,sep&＃61;&＃39;\t&＃39;)
store_q.sort_values(by&＃61;&＃39;Year&＃39;,inplace &＃61; True)
store_q_g &＃61; store_q.groupby(by&＃61;&＃39;item&＃39;,as_index&＃61;False)
growth_rate_list&＃61;[]
for index,group in store_q_g:
    growth_rate &＃61; group[&＃39;quantity&＃39;]/group[&＃39;quantity&＃39;].shift(1)-1
    growth_rate_list.append([&＃39;growth_rate&＃39;,index,growth_rate.values[1]])
store_rate &＃61; pd.concat([store_q,pd.DataFrame(growth_rate_list,columns&＃61;[&＃39;Year&＃39;,&＃39;item&＃39;,&＃39;quantity&＃39;])])
print(store_rate)
e &＃61; time.time()
print(e-s)
df.sort_values(by,inplace),按照Year字段排序&＃xff0c;更新到元数据中
df.groupby(by, as_index),按照item分组&＃xff0c;不把item作为索引
初始化一个list用来存放各组的结果
循环分组&＃xff0c;df.shift(1)是将df下移一行&＃xff0c;&＃xff08;当前行/上一行&＃xff09;-1得到增长率。
由于只有两年的记录所以增长率的第二个元素即为需要的增长率。将growth_rate,index,增长率放入初始化的list中
pd.Dataframe()和pd.concat()大家应该很熟了&＃xff0c;这里不再赘述了。
结果&＃xff1a;
esproc
python

耗时

esproc

0.001

python

0.014

5.合并重复记录
题目介绍&＃xff1a;该数据没有字段&＃xff0c;第一行就是数据&＃xff0c;数据如下&＃xff1a;
我们的目的是过滤掉重复的记录&＃xff0c;取出前6列&＃xff0c;并重整第7,8两列&＃xff0c;具体要求是&＃xff1a;将wrok phone作为新文件第7列&＃xff0c;将work email作为新文件第8列&＃xff0c;如果有多个work phone或work email,则只取第一个。
esproc

A

1

&＃61;now()

2

&＃61;file("C:\\Users\\Sean\\Desktop\\kaggle_data\\music_project_data\\merge_duplicate.csv").import&＃64;c()

3

&＃61;A2.group(_1,_2:,_3,_4,_5,_6;~.select&＃64;1(_7&＃61;&＃61;"work phone")._8:work_phone,~.select&＃64;1(_7&＃61;&＃61;"work email")._8:work_email)

4

&＃61;interval&＃64;ms(A1,now())

A2:这里解释下f.import(),导入数据&＃xff0c;&＃64;t是要把第一列作为字段名&＃xff0c;&＃64;c是按照逗号分隔。
A3:按照_1,_2,_3,_4,_5,_6分组&＃xff0c;每组选择一条记录select&＃64;1()是取序列中第一条符合条件的成员&＃xff0c;如果第7个字段是work phone则取第八个字段的值作为work_phone字段&＃xff0c;如果分组中第7个字段是work email则取第八个字段作为work_email字段。
python&＃xff1a;
import time
import pandas as pd
import numpy as np
s &＃61; time.time()
merge_dup &＃61; pd.read_csv(&＃39;C:\\Users\\Sean\\Desktop\\kaggle_data\\music_project_data\\merge_duplicate.csv&＃39;,header&＃61;None)
merge_dup_g &＃61; merge_dup.groupby(by&＃61;[0,1,2,3,4,5],as_index&＃61;False)
work_arr &＃61; np.zeros(len(merge_dup.columns))
work_list &＃61; []
for index,group in merge_dup_g:
    work_arr &＃61; group.iloc[0].values
    work_arr[6] &＃61; work_arr[7]
    work_arr[7] &＃61; group[group[6]&＃61;&＃61;&＃39;work email&＃39;].iloc[0].values[7]
    work_list.append(work_arr)
merge_dup &＃61; pd.DataFrame(work_list,columns&＃61;merge_dup.columns)
merge_dup.rename(columns&＃61;{6:&＃39;work_phone&＃39;,7:&＃39;work_email&＃39;},inplace&＃61;True)
print(merge_dup)
e &＃61; time.time()
print(e-s)
按照前6个字段进行分组
因为题目要求我们把work phone 和work email拿出来作为字段&＃xff0c;所以源数据的字段数没变&＃xff0c;df.columns得到df的字段名&＃xff0c;np.zeros()初始化一个数组。
循环分组
取分组中第6个字段等于work phone的第一行的值&＃xff0c;赋值给初始化的数组
修改数组第7个元素(索引是6)为数组的第8个元素(索引是7)
取分组中第6个字段等于work email的第一行的值的第8个元素(索引是7)&＃xff0c;赋值给数组的第8个元素(索引是7)。
将结果放入初始化的list中
转换成dataframe。
df.rename(columns,inplace)修改字段名&＃xff0c;更新到源数据上。
结果&＃xff1a;
esproc
python

耗时

esproc

0.002

python

0.022

6. 准备测试数据
esproc

A

1

&＃61;now()

2

1000

3

&＃61;file("C:\\Users\\Sean\\Desktop\\kaggle_data\\prepare_data\\M_name.txt").import&＃64;t()

4

&＃61;file("C:\\Users\\Sean\\Desktop\\kaggle_data\\prepare_data\\F_name.txt").import&＃64;t()

5

&＃61;file("C:\\Users\\Sean\\Desktop\\kaggle_data\\prepare_data\\S_name.txt").import&＃64;t()

6

&＃61;file("C:\\Users\\Sean\\Desktop\\kaggle_data\\prepare_data\\cities.txt").import&＃64;t()

7

&＃61;file("C:\\Users\\Sean\\Desktop\\kaggle_data\\prepare_data\\states.txt").import&＃64;t()

8

&＃61;A3.derive("M":GENDER)

9

&＃61;A4.derive("F":GENDER)

10

&＃61;A8|A9

11

&＃61;A6.derive(A7.select&＃64;1(STATEID&＃61;&＃61;A6.STATEID).ABBR:ABBR)

12

&＃61;A10.((A5.new(A10.NAME&＃43;" "&＃43;S_name:NAME,A10.GENDER:GENDER))).conj().sort(rand())

13

&＃61;A2.new(#:ID,A12(#).NAME:NAME,A12(#).GENDER:GENDER,elapse((birthday&＃61;date(year(now())-(18&＃43;rand(38)),1,1)),rand(days&＃64;y(birthday))):BIRTHDAY,(city&＃61;A11(rand(A11.len())&＃43;1)).NAME:CITY,city.ABBR:STATE)

14

&＃61;interval&＃64;ms(A1,now())

A2: 定义一个数字&＃xff0c;用来确定创建多少员工信息&＃xff0c;这里准备的数据比较少&＃xff0c;感兴趣的同学可以多准备些&＃xff0c;这里是男员工名字45&＃xff0c;女员工名字47&＃xff0c;姓47&＃xff0c;所以最多可以创建(45&＃43;47)47&＃61;4324条员工信息&＃xff0c;因此这个数字不能大于4324。
A8:男员工名字新增一个字段GENDER,赋值M
A10:合并男女员工的姓名
A11:根据STATEID为city表增加state表中的ABBR字段并设置成city表的ABBR字段
A12:按照A10表合并姓名和姓。A.conj()将序列和列。得到(45&＃43;47)47个姓名和GENDER&＃xff0c;sort(rand())将表随机排列&＃xff0c;这是相对于news()的另一种写法&＃xff0c;感兴趣的同学可以尝试改写成news()的写法。
A13:新建表&＃xff0c;定义两个变量&＃xff0c;birthday:18&＃43;rand(18)&＃xff0c;表示年龄在18至35周岁&＃xff0c;用今年的年份减去年龄&＃xff0c;得到出生的年份的一月一日。city&＃xff1a;从city表中随机选取一条记录。定义变量是可以在计算的时候定义的&＃xff0c;计算完成后赋值给变量&＃xff0c;后续的计算可以直接使用这个变量&＃xff0c;这使表达式显得简洁。最终的BIRTHDAY字段为从那年的1月1日&＃xff0c;随机推迟那年的天数的时间&＃xff0c;得到生日。city去city表的NAME字段&＃xff0c;STATE去city表的ABBR字段。
python&＃xff1a;
import time
import pandas as pd
import numpy as np
import datetime
import random
s &＃61; time.time()
data_quantity &＃61; 1000
m_name &＃61; pd.read_csv(&＃39;C:\\Users\\Sean\\Desktop\\kaggle_data\\prepare_data\\M_name.txt&＃39;,sep&＃61;&＃39;\t&＃39;)
f_name &＃61; pd.read_csv(&＃39;C:\\Users\\Sean\\Desktop\\kaggle_data\\prepare_data\\F_name.txt&＃39;,sep&＃61;&＃39;\t&＃39;)
s_name &＃61; pd.read_csv(&＃39;C:\\Users\\Sean\\Desktop\\kaggle_data\\prepare_data\\S_name.txt&＃39;,sep&＃61;&＃39;\t&＃39;)
cities &＃61; pd.read_csv(&＃39;C:\\Users\\Sean\\Desktop\\kaggle_data\\prepare_data\\cities.txt&＃39;,sep&＃61;&＃39;\t&＃39;)
states &＃61; pd.read_csv(&＃39;C:\\Users\\Sean\\Desktop\\kaggle_data\\prepare_data\\states.txt&＃39;,sep&＃61;&＃39;\t&＃39;)
m_name[&＃39;GENDER&＃39;] &＃61; &＃39;M&＃39;
f_name[&＃39;GENDER&＃39;] &＃61; &＃39;F&＃39;
name &＃61; pd.concat([m_name,f_name])
name[&＃39;FULL_NAME&＃39;]&＃61;1
s_name[&＃39;FULL_NAME&＃39;]&＃61;1
name &＃61; pd.merge(name,s_name,on&＃61;&＃39;FULL_NAME&＃39;)
name[&＃39;FULL_NAME&＃39;]&＃61;name[&＃39;NAME&＃39;]&＃43;&＃39; &＃39;&＃43;name[&＃39;S_name&＃39;]
city_state &＃61; pd.merge(cities[[&＃39;NAME&＃39;,&＃39;STATEID&＃39;]],states[[&＃39;ABBR&＃39;,&＃39;STATEID&＃39;]],on&＃61;&＃39;STATEID&＃39;)
birth_list &＃61; []
city_list &＃61; []
state_list &＃61; []
for i in range(data_quantity):
    age &＃61; random.randint(18,35)
    birth_y &＃61; datetime.datetime.today().year-age
    birthday &＃61; datetime.datetime(birth_y,1,1).date()
    year_days &＃61; int(datetime.date(birth_y,12,31).strftime(&＃39;%j&＃39;))
    birthday &＃61; birthday &＃43; datetime.timedelta(days&＃61;random.randint(0,year_days))
    birth_list.append(birthday)
    rand_index &＃61; random.randint(0,len(city_state)-1)
    city_list.append(city_state[&＃39;NAME&＃39;].loc[rand_index])
    state_list.append(city_state[&＃39;ABBR&＃39;].loc[rand_index])
rand_arr &＃61; np.random.randint(0,len(name),data_quantity)
person &＃61; name[[&＃39;FULL_NAME&＃39;,&＃39;GENDER&＃39;]].loc[rand_arr]
person[&＃39;ID&＃39;]&＃61;np.arange(data_quantity)
person[&＃39;BIRTHDAY&＃39;] &＃61; birth_list
person[&＃39;CITY&＃39;] &＃61; city_list
person[&＃39;STATE&＃39;] &＃61; state_list
person &＃61; person.rename(columns&＃61;{&＃39;FULL_NAME&＃39;:&＃39;NAME&＃39;}).reset_index(drop&＃61;True)
print(person[[&＃39;ID&＃39;,&＃39;NAME&＃39;,&＃39;GENDER&＃39;,&＃39;BIRTHDAY&＃39;,&＃39;CITY&＃39;,&＃39;STATE&＃39;]])
e &＃61; time.time()
print(e-s)
新增字段&＃xff0c;纵向和横向合并dataframe&＃xff0c;我们在前边的例子已经多次用到了&＃xff0c;这里不再赘述
简单解释一下姓名合并的问题&＃xff0c;由于两个dataframe没有共同的字段作为key&＃xff0c;所以我们造了一个字段FULL_NAME&＃xff0c;赋值为1&＃xff0c;只为进行merge。
定义三个list&＃xff0c;分别用来生成BIRTHDAY,CITY,STATE列
把年龄定义在18-35之间&＃xff0c;由年龄生成随机的生日&＃xff0c;然后放入定义好的list中
CITY和STATE字段的值是利用loc[]函数&＃xff0c;随机取&＃xff0c;并放入定义好的list中
定义一个数组&＃xff0c;随机生成name数据的索引
通过loc[rand_arr]函数&＃xff0c;取随机的1000个&＃xff0c;生成FULL_NAME和GENDER字段。
np.arange(n)生成n个元素的一维数组&＃xff0c;作为ID字段。
然后把刚才的三个list赋值给BIRTHDAY,CITY,STATE。
rename()将FULL_NAME字段名改为NAME&＃xff0c;重新设置索引并将原来的索引丢弃。
生成最终结果。
结果&＃xff1a;
esproc
python

耗时

esproc

0.018

python

0.184

小结&＃xff1a;本节我们继续计算一些网上常见的题目&＃xff0c;由于pandas依赖于另一个第三方库numpy&＃xff0c;而numpy的数组元素只能通过循环一步一步进行更新&＃xff0c;esproc的循环函数如new()、select()等都可以动态更新字段值&＃xff0c;使得代码简单。在第二例中&＃xff0c;日期处理时&＃xff0c;esproc可以很轻松的划分出不规则的月份&＃xff0c;并根据不规则月份进行计算。而python划分不规则月份时需要额外依赖datetime库&＃xff0c;还要自行根据月份天数划分&＃xff0c;实在是有些麻烦。

推荐阅读

config
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
string
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
email
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
string
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
string
优化Kafka流状态存储查询的最佳实践

本文探讨了如何优化和正确配置Kafka Streams应用程序以确保准确的状态存储查询。通过调整配置参数和代码逻辑，可以有效解决数据不一致的问题。 ... [详细]

蜡笔小新 2024-12-26 18:17:14
config
golang常用库：配置文件解析库/管理工具viper使用

golang常用库：配置文件解析库管理工具-viper使用-一、viper简介viper配置管理解析库，是由大神SteveFrancia开发，他在google领导着golang的 ... [详细]

蜡笔小新 2024-12-28 13:47:52
default
配置并访问BackTrack 5的SSH服务

本文详细介绍了如何在BackTrack 5中配置和启动SSH服务，确保其正常运行，并通过Windows系统成功连接。涵盖了必要的密钥生成步骤及常见问题解决方法。 ... [详细]

蜡笔小新 2024-12-27 20:13:35
jsp
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
jsp
C++实现经典排序算法

本文详细介绍了七种经典的排序算法及其性能分析。每种算法的平均、最坏和最好情况的时间复杂度、辅助空间需求以及稳定性都被列出，帮助读者全面了解这些排序方法的特点。 ... [详细]

蜡笔小新 2024-12-27 19:25:14
get
深入理解 SQL 视图、存储过程与事务

本文详细介绍了SQL中的视图、存储过程和事务的概念及应用。视图为用户提供了一种灵活的数据查询方式，存储过程则封装了复杂的SQL逻辑，而事务确保了数据库操作的完整性和一致性。 ... [详细]

蜡笔小新 2024-12-27 17:40:42
email
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
config
深入解析Spring Cloud Ribbon负载均衡机制

本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式，帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]

蜡笔小新 2024-12-27 16:01:25
config
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
get
Splay Tree 区间操作优化

本文详细介绍了使用Splay Tree进行区间操作的实现方法，包括插入、删除、修改、翻转和求和等操作。通过这些操作，可以高效地处理动态序列问题，并且代码实现具有一定的挑战性，有助于编程能力的提升。 ... [详细]

蜡笔小新 2024-12-26 18:47:12
get
利用存储过程构建年度日历表的详细指南

本文将介绍如何使用SQL存储过程创建一个完整的年度日历表。通过实例演示，帮助读者掌握存储过程的应用技巧，并提供详细的代码解析和执行步骤。 ... [详细]

蜡笔小新 2024-12-26 18:20:17

温尧乔761975

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved |

京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区版权所有