数据分析概述
- 用统计与分析的方法 盖乐普预测总统大选 3000份小数据集战胜大数据集 文学文摘1000w份
 
A 数据获取
B 探索分析与可视化
数据预处理
D 建立模型
E 模型评估
数据学习网站
- kaggle
 - 阿里天池 https://tianchi.aliyun.com/
 - imagenet /openimages (google)
 - 统计局,政府机构,公司财报等
 
探索型数据分析
集中趋势
- 均值、中位数、众数、分位数
1
2
3
4四分位数计算
Q1=(n+1)*0.25
Q2=(n+1)*0.5
Q3=(n+1)*0.75 
离中趋势
- 标准差、方差
 
数据分布:偏态与峰度
- 偏态系数S
 - 峰态系数K 正态分布是3 可以用来直接拒绝正态分布假设
 
正态分布3大分布
- 正态分布
 - 卡方分布
 - T分布
 - F分布
 
抽样理论
- 抽样误差与精度
 - 完全随机,等距等差抽样
 - 分层分类抽样
 - 重复抽样与 不重复抽样
 
数据分类
- 定类数据,根据事物离散,无差别属性进行分类 民族
 - 定序:可以界定数据大小,但不能测定差值 收入低中高
 - 定距数据:可以界定数据大小的同时,可测定差值,但无绝对零点 温度
 - 定比,身高,体重
 
异常值分析
- 连续异常值
 - 离散异常值 收入离散化以后
 - 知识异常值 身高10米等
 
对比分析
- 比什么?
- 绝对数比较
 - 相对数比较 结构相对数,
- 部分与整体,合格率,通过率
 - 比例相对数 农业,工业,服务业
 - 比较相对数 不同电商待遇水平
 - 动态相对数 速度,用户数量增速
 - 强度相对数 GDP 人均GDP
 
 
 - 怎么比?
- 时间维度 同比和去年同期,环比和今年前一个比较
 - 空间维度 现实方位上的。逻辑上的
 - 经验与计划 计划
 
 
分布分析
- 直接获得概率分布
 - 判断一个分布是不是正态分布
 - 极大似
 
可视化分析
- 工具 matplotlib,seaborn(matplotlib的封装),plotly(可直接用在网页中)