数据分析概述
- 用统计与分析的方法 盖乐普预测总统大选 3000份小数据集战胜大数据集 文学文摘1000w份
A 数据获取
B 探索分析与可视化
数据预处理
D 建立模型
E 模型评估
数据学习网站
- kaggle
- 阿里天池 https://tianchi.aliyun.com/
- imagenet /openimages (google)
- 统计局,政府机构,公司财报等
探索型数据分析
集中趋势
- 均值、中位数、众数、分位数
1
2
3
4四分位数计算
Q1=(n+1)*0.25
Q2=(n+1)*0.5
Q3=(n+1)*0.75
离中趋势
- 标准差、方差
数据分布:偏态与峰度
- 偏态系数S
- 峰态系数K 正态分布是3 可以用来直接拒绝正态分布假设
正态分布3大分布
- 正态分布
- 卡方分布
- T分布
- F分布
抽样理论
- 抽样误差与精度
- 完全随机,等距等差抽样
- 分层分类抽样
- 重复抽样与 不重复抽样
数据分类
- 定类数据,根据事物离散,无差别属性进行分类 民族
- 定序:可以界定数据大小,但不能测定差值 收入低中高
- 定距数据:可以界定数据大小的同时,可测定差值,但无绝对零点 温度
- 定比,身高,体重
异常值分析
- 连续异常值
- 离散异常值 收入离散化以后
- 知识异常值 身高10米等
对比分析
- 比什么?
- 绝对数比较
- 相对数比较 结构相对数,
- 部分与整体,合格率,通过率
- 比例相对数 农业,工业,服务业
- 比较相对数 不同电商待遇水平
- 动态相对数 速度,用户数量增速
- 强度相对数 GDP 人均GDP
- 怎么比?
- 时间维度 同比和去年同期,环比和今年前一个比较
- 空间维度 现实方位上的。逻辑上的
- 经验与计划 计划
分布分析
- 直接获得概率分布
- 判断一个分布是不是正态分布
- 极大似
可视化分析
- 工具 matplotlib,seaborn(matplotlib的封装),plotly(可直接用在网页中)