Weaving Wong

总觉得该写点啥...

嗨,我是Weaving,一名机器学习爱好者.


分享读书、学习、生活感悟

机器学习(1)-统计与分布

统计与分布

决策权衡

决策平衡也就是平时所说的加权平均的概念,当出现需要做出听证决策时,往往不同的重要程度的人群所拥有的决策权不同。


欧氏距离

计算方法就是平时我们在解析几何当中使用的绝对距离,在工程领域使用广泛,他的计算方法是:


曼哈顿距离

曼哈顿距离在我看来又可以称为绝对值距离,它的引入是来源于生活实际,在日常生活中应用广泛,比如我们谈论两个地点之间的距离,我们一般是采用的曼哈顿距离,也就是我们一般会采用这两点所形成的三角形的两个直角边的距离和,而不是欧氏距离所代表的三角形斜边距离。我们来看一下它的计算公式:


同比和环比

在看一些新闻或者报道时,经常听到的“某公司本月销售额1000万,同比增长100%,环比增长25%”这是什么意思?

同比:是“与相邻时段的同一时期相比”应该是今年7月与去年7月做比较

环比:就是直接与上一个报告期进行比较,这样来说,应该是与今年的6月进行比较

在互联网行业中,我们也可以见到这样的例子

日活/月活:日/月活跃用户数

日PV数:page views ,俗称点击量

高斯分布

高斯分布又称为正态分布(Normal Distribution),以下是它的概率密度函数:

高斯分布的 $\mu+(1/2/3)\sigma$段式概率分布分别是68.2%、95.4%、99.8%。


泊松分布

泊松分析适合于描述单位时间内随机事件发生的次数。 其中,$\lambda$ 是单位时间(或单位面积)内随机使劲按的平均发生率。

分布适用的事件需要满足三个条件:

1.小概率事件

2.事件每次发生是独立的不会互相影响

3.事件的概率是稳定的。

伯努利分布

这是一种离散分布,有两种结果,1表示成功,出现的概率为P。0表示失败,出现的概率为q=1-P。

伯努利分布需要满足两个条件:

1.事件的发生是相互独立

2.只有两种结果

参考文献

白话大数据与机器学习

最近的文章

python的pandas库中axis的理解

df.mean其实是在每一行上取所有列的均值,而不是保留每一列的均值。也许简单的来记就是axis=0代表往跨行(down),而axis=1代表跨列(across),作为方法动作的副词(译者注)换句话说: 使用0值表示沿着每一列或行标签\索引值向下执行方法 使用1值表示沿着每一行或者列标签模向执行对应的方法 axis参数作用方向图示另外,记住,Pandas保持了Numpy对关键字axis的用法,用法在Numpy库的词汇表当中有过解释:轴用来为超过一维的数组定义的属性...…

axis继续阅读
更早的文章

剑指offer-反转链表

输入一个链表,输出反转后的链表。 剑指offer中的Python解法:# class ListNode:# def __init__(self, x):# self.val = x# self.next = Noneclass Solution: # 返回ListNode def ReverseList(self, pHead): if not pHead or not pHead.next: retu...…

python继续阅读