数据科学之路-2


2.统计

A.选取数据集:抽样理论,PPS,SPS等。

B.描述性统计:均值,中位数,极差,标准差,方差

C.探索性数据分析(EDA):评估数据质量,探索每个自变量与因变量之间的关系,探索每个自变量之间的相关性,数据正态性检验等,一般画出一些图形容易看出关系和问题。

D.直方图:自变量是连续分布或者是离散分布,因变量是连续的。

E.离群点处理:一般称离数据中位数差2.5个标准差为离群点。

F.概率论:贝叶斯方程,独立事件等

G.贝叶斯:P(A∩B) = P(A)*P(B|A)=P(B)*P(A|B)。

H.随机变量:随机试验各种结果的实值单值函数,即我们把扔色子为6结果的事件,定义为随机变量为6

I.累计分布函数:导数和原函数

J.常见的连续分布:泊松分布,高斯分布等

K.偏差

L.方差分析

M.概率密度函数

N.中心极限定律

O.蒙特卡洛模拟

P.假设检验

Q.P值

R.卡方检验

S.估计

T.置信区间

U.MLE(极大似然估计)

V.核密度估计

W.回归

X.协方差/相关系数

Y.皮尔逊系数,相关关系/因果关系

Z.欧氏距离,最小二乘法


作者:哀吾生之须臾,羡长江之无穷,发布于:2019/03/15
原文:https://www.cnblogs.com/anyv/p/10535744.html