python数据分析概述

数据分析概述

  • 用统计与分析的方法 盖乐普预测总统大选 3000份小数据集战胜大数据集 文学文摘1000w份

A 数据获取

B 探索分析与可视化

数据预处理

D 建立模型

E 模型评估

数据学习网站

探索型数据分析

集中趋势

  • 均值、中位数、众数、分位数
    1
    2
    3
    4
    四分位数计算
    Q1=(n+1)*0.25
    Q2=(n+1)*0.5
    Q3=(n+1)*0.75

离中趋势

  • 标准差、方差

数据分布:偏态与峰度

  • 偏态系数S
  • 峰态系数K 正态分布是3 可以用来直接拒绝正态分布假设

正态分布3大分布

  • 正态分布
  • 卡方分布
  • T分布
  • F分布

抽样理论

  • 抽样误差与精度
  • 完全随机,等距等差抽样
  • 分层分类抽样
  • 重复抽样与 不重复抽样

数据分类

  • 定类数据,根据事物离散,无差别属性进行分类 民族
  • 定序:可以界定数据大小,但不能测定差值 收入低中高
  • 定距数据:可以界定数据大小的同时,可测定差值,但无绝对零点 温度
  • 定比,身高,体重

异常值分析

  • 连续异常值
  • 离散异常值 收入离散化以后
  • 知识异常值 身高10米等

对比分析

  • 比什么?
    • 绝对数比较
    • 相对数比较 结构相对数,
      • 部分与整体,合格率,通过率
      • 比例相对数 农业,工业,服务业
      • 比较相对数 不同电商待遇水平
      • 动态相对数 速度,用户数量增速
      • 强度相对数 GDP 人均GDP
  • 怎么比?
    • 时间维度 同比和去年同期,环比和今年前一个比较
    • 空间维度 现实方位上的。逻辑上的
    • 经验与计划 计划

分布分析

  • 直接获得概率分布
  • 判断一个分布是不是正态分布
  • 极大似

可视化分析

  • 工具 matplotlib,seaborn(matplotlib的封装),plotly(可直接用在网页中)