老板丢给我60万行的Excel数据，幸亏我会Python，不然就惨了

遁地的蜘猪侠 2018-07-26

展开全文

老板丢给我60万行的Excel数据，幸亏我会Python，不然就惨了

一个朋友在某运动品牌公司上班，老板给他布置了一个处理客户订单数据的任务。要求是根据订单时间和客户id判断生成四个新的数据：

1、记录该客户是第几次光顾

2、上一次的日期时间是什么时候

3、与上次订单的间隔时间

4、这是一个existing客户还是一个new客户（见定义）

文件说明：

1、第一列是订单日期和时间（乱序）

2、第二列是客户的id

3、第三列不需要使用

4、60 万行数据

相关定义如下：

1、existing：此次下单日期时间与上次日期时间的距离在N天以内，精确到时间（时分秒）

2、new：即超过N天

老板丢给我60万行的Excel数据，幸亏我会Python，不然就惨了

整体思路

1、读取表格的行数据存储成list，并按照时间列的升序排序。

2、维护一个map（在python里是字典dict），每个用户 id 作为key，一个二元组（第几次下单，上一次的日期时间）作为value。

3、遍历表格行数据的list。判断客户 id 是否已经存在于map中，若首次出现，则置该客户 id 在map中的value为[1,'首次下单']，对应行数据新增的4个数据为[1，'首次下单',该次日期时间与上次日期时间差，'new']。若已经存在，则更新map中对应的value为[原次数 1，该次日期时间]，对应行数据新增的4个数据为[原次数 1，上次日期时间，间隔时间，new/existing取决于间隔时间与预设N]。

4、将修改过后的行数据list写入到Excel工作簿并保存。