小红书达人带你学习DataFrame的统计-千锋教育

小红书达人带你学习DataFrame的统计

发布时间:2022-08-12 13:42:00

发布人:syq

　　现在直播带货太火了，宋宋最近也在小红书上败家了好几单，身为程序员的宋宋有点不甘心。拿到了一份小红书直播带货榜数据分析下，看一看小红书的卖货实力和用户分析？本案例主要针对DataFrame的数据统计和排序知识点的讲解。

　　### 数据展示与清洗

　　首先了解下我们即将使用的数据book.csv(获取数据文末可以网盘下载):

　　```python

　　import pandas as pd

　　import numpy as np

　　import random

　　from matplotlib import pyplot as plt

　　from pyecharts.charts import Boxplot

　　df= pd.read_csv("book.csv")

　　df.info()

　　```

　　结果：　　

屏幕快照 2021-07-22 下午4.46.08

　　数据内容如下：　　

屏幕快照 2021-07-22 下午5.28.50

　　其中每列表示如下：

　　> 数据说明这是一个关于用户在小红书购买金额的数据集，共有29452条数据， 7个变量。

　　> (1) revenue 用户下单的购买金额

　　> (2) 3rd_party_stores 用户过往在app中从第三方购买的数量，为0则代表只在自营商品中购买

　　> (3) Gender 性别 1：男，0：女，未知则空缺

　　> (4) Engaged_last_30 最近30天在app上有参与重点活动(0:讨论，1:卖家秀的活动)

　　> (5) Lifecycle 生命周期分为A,B,C (分别对应注册A：6个月内，B：1年内，C：2年内)

　　> (6) days_since_last_order 最近一次下单距今的天数 (小于1则代表当天有下单)

　　> (7)previous_order_amount 以往累积的用户购买金额

　　大家都知道我们在分析数据前都会判断下，是否存在空缺值，重复值、异常值等，即进行数据的清洗。

　　```python

　　df.isnull().any()

　　```　　

屏幕快照 2021-07-22 下午4.53.14

　　```

　　df.duplicated().any()

　　```

　　结果是：

　　> True

　　说明存在空缺值和重复值，于是我们要对这些数据进行处理

　　```python

　　# 去除重复数值和缺失数值

　　df.drop_duplicates(inplace=True)

　　df.reset_index(drop=True,inplace=True)

　　df.replace('nan',np.nan,inplace=True)

　　#把性别、年龄、用户过往中为nan的数值分别用随机、平均值、随机替代

　　df.fillna(value={"gender":random.choice([1.0,0.0]),"age":round(df["age"].mean(),0),"engaged_last_30":random.choice([1.0,0.0])},inplace=True)

　　df.head()

　　```

　　结果：　　

屏幕快照 2021-07-22 下午5.29.56

　　我们可以发现个别数据的列名比较长，所以我们需要简化部分columns的命名使用rename方法，这样方便我们后续的使用

　　```python

　　df=df.rename(columns={

　　"engaged_last_30": "engage",

　　df.keys()[5]: "last_order",

　　"previous_order_amount":"accumulation",

　　"3rd_party_stores":"3rd"})

　　```

　　结果：　　

屏幕快照 2021-07-22 下午5.34.45

　　更多关于“Python 培训”的问题，欢迎咨询千锋教育在线名师。千锋教育多年办学，课程大纲紧跟企业需求，更科学更严谨，每年培养泛IT人才近2万人。不论你是零基础还是想提升，都可以找到适合的班型，千锋教育随时欢迎你来试听。

　　注：本文部分文字和图片来源于网络，如有侵权，请联系删除。版权归原作者所有!

上一篇DataFrame的创建和基本操作

下一篇小红书达人带你学习DataFrame的排序

明道、teambition、Tower.im、Worktile、trello的功能都有哪些?

2023-10-14

反欺诈中所用到的机器学习模型有哪些?

2023-10-14

强化学习中on-policy与off-policy有什么区别?

2023-10-14

为什么交叉熵可以用于计算代价?

2023-10-14

校区精品课程

互联网前瞻热门课程从入门到成神

全国旗舰校区