# -*- coding: utf-8 -*-
#1、概念:基本统计分析:描述性统计分析,用来概括事物整体状况以及事物间联系(即事物的基本特征),以发现其内在规律的统计分析方法。
# 常用的统计指标:计数、求和、平均值、方差、标准差
#方差:统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。
#标准差:标准差是方差的算术平方根(开根号).标准差能反映一个数据集的离散程度.平均数相同的两个序列,标准差未必相同。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值
#2、描述性统计分析函数:describe():在需要分析的变量列后直接调用,就可以得到描述性信息,如最小值、最大值、标准差等等
#常用的统计函数:
#size:计数
#sum:求和
#mean:平均值
#var:方差
#std:标准差
import pandas
data = pandas.read_csv("D:/workspaces/python/pythonStudy/24.csv")
#24.csv包括列:class,name,score。下载地址:https://pan.baidu.com/s/1icameqiRuNN9sNncHiWggw
data.score.describe()
data.score.size
data.score.max()
data.score.min()
data.score.sum()
data.score.mean() #平均值
data.score.var() #方差
data.score.std() #标准差
#累计求和:
data.score.cumsum() #注意:不是单纯的求和!它的返回值是一个序列,可以看到累计求和的过程数据
data.score.argmin() #最小值的位置(下标从0开始)
data.score.argmax() #最大值的位置
#下面这个函数很常用,特别是在rfm分析当中。函数名称:分位数函数;作用:进行分位数的求解
#什么是统计学中的p分位数:
#就是先把一列数按从小到大排序,如果一共有n个数,那么四分之一分位数就是第n*0.25个数,四分之三分位数就是第n*0.75个数,以此类推,p分位数就是第n*p个数.如果n*p不是整数则往最接近的较大的整数上归
#求出排序在30%的数值:
data.score.quantile(0.3,interpolation="nearest")
#interpolation="nearest" 表示如果找不到精确的百分位排序数,那么使用离它最近的那个数字进行返回
|
|