机器学习面试题精选连载(机器学习面试题精选连载)
机器学习面试题精选连载(机器学习面试题精选连载)
2024-11-05 01:47:40  作者:初寐四五回  网址:https://m.xinb2b.cn/sport/snd372925.html

本期继续连载数学基础的最后一部分:概率论,包括基础概念、似然、最大似然估计、概率分布衡量等。至此数学基础知识就介绍完啦,下次开始介绍具体的模型算法。

《机器学习基础知识手册》总结了更多的问题,欢迎访问github地址:https://github.com/5663015/machine-learning-handbook

概率论基础概念排列:,组合:联合概率分布:多个变量的概率分布称为联合概率分布,表示和同时发生的概率。边缘概率:有时我们知道了一组变量的联合概率分布,还需要知道其中一个子集的概率分布,这种定义在子集上的概率分布称为边缘概率分布。对于离散型随机变量,根据下面的求和法来计算:条件概率:在给定和​发生的条件概率为:全概率公式:若事件​构成一个完备事件组且都有正概率,则对于任一个事件​x都有如下全概率公式:贝叶斯公式:贝叶斯公式是关于随机事件x和y的条件概率和边缘概率边缘概率的:

​是后验概率,​是条件概率或似然

期望:对于N个离散随机变量X,其概率分布为​,X的期望定义为:

对于连续型随机变量X,概率密度函数为​,则期望为:

期望的性质:

方差:随机变量X的方差用来定义它的概率分布的离散程度,定义为:

方差的性质:

概率和似然的区别与联系概率表达的是给定下样本随机向量的可能性,而似然表达了给定样本下参数为真实值的可能性。似然函数的形式是,其中"|"代表的是条件概率或者条件分布,因此似然函数是在"已知"样本随机变量的情况下,估计参数空间中的参数的值,因此似然函数是关于参数的函数,即给定样本随机变量后,估计能够使的取值成为的参数的可能性;而概率密度函数的定义形式是,即概率密度函数是在“已知”的情况下,去估计样本随机变量出现的可能性。似然函数可以看做是同一个函数形式下的不同视角。以函数​为例,该函数包含了两个变量,​和​,如果​已知为2,那么函数就是变量​的二次函数,即​ ;如果​已知为2,那么该函数就是变量b的幂函数,即​。同理,​和​也是两个不同的变量,如果​的分布是由已知的​刻画的,要求估计​的实际取值,那么​就是​的概率密度函数;如果已知随机变量​的取值,而要估计使​取到已知​的参数分布,就是似然函数的目的。最大似然估计和最大后验概率的区别对于函数​有两种情况:​保持不变,​为变量,此时函数为概率函数,表示的是​出现的概率;​是变量,​是变量,此时为似然函数,表示不同​下​出现的概率最大似然估计尝试求解使得出现概率最高的。对于m次实验,由于每次都是独立的,我们可以将中每一次实验结果的似然函数全部乘起来,那么,使得该式取得最大值的,即为的最大似然估计:最大似然估计方法尝试求解来最大化似然函数,显然计算出来的参数完全取决于实验结果。最大后验概率能够很大程度解决这个问题。该方法尝试最大化后验概率:

是已知的,只需最大化分子部分。和最大化似然的唯一区别是增加了先验概率

KL散度、JS散度、Wasserstein距离KL散度(不对称),也叫相对熵,衡量分布之间的差异性。KL散度并不是一个真正的距离,KL散度不满足对称性(即)和三角不等式(即不满足)

将KL散度展开可得,其中为熵,为交叉熵。KL散度实际上衡量的是两者之间的信息损失

KL散度的缺点:无界不对称若两个分布无重叠部分可能得到的结果无意义

关于分布不重合时的情况举例,对于如下的分布,P1在AB上均匀分布,P2在CD上均匀分布,控制着两个分布的距离远近。可得:


JS散度:解决了KL散度非对称的问题。KL散度和JS散度都有一个问题,即当两个分布和离得很远没有重叠时,KL散度是无意义的,JS散度是个常数。Wasserstein距离

​是​分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布​,可以从中采样​得到一个样本​x和y​,并计算出这对样本的聚类​,所以可以计算该联合分布​下,样本对距离的期望值​。在所有可能的联合分布中能够取到这个期望值的下界的就是wasserstein距离。直观上可以理解为在​这个路径规划下把土堆​挪到土堆​所需要的消耗。而Wasserstein距离就是在最优路径规划下的最小消耗,也叫做Earth-mover距离。

机器学习面试题精选连载(1)——模型基础

机器学习面试题精选连载(2)——微积分与线性代数

机器学习面试题精选连载(3)——线性代数

  • 为什么演员阵容强大却还是烂片(耍大牌不背词猛拍烂片)
  • 2024-11-05耍大牌不背词猛拍烂片文|娱情故纵编辑|娱情故纵前言近些年影视界可谓是备受人们的吐槽,越来越多的烂片开始在市场中出现,甚至有不少的“实力派演员”也开始接起烂片来而其中更是还有一些被人称为“老戏骨”的演员,可以说“摆烂”和“。
  • 小艺是什么电影(网小艺系列访谈)
  • 2024-11-05网小艺系列访谈主旋律vs好看?网小艺:“主旋律”和“好看”是一对不能兼顾的“矛盾”吗?怎么看这个问题?主旋律与“好看”不矛盾,真正好看的影片应该是“入眼入脑入心”创作是源于对“故事的爱”、对于“生活的爱”、对于“人。
  • 火锅加盟招商的几个要点(关于品牌火锅加盟)
  • 2024-11-05关于品牌火锅加盟在现在这个加盟市场,很多人都选择了火锅加盟,因为我们看到火锅店的生意都是红红火火的但是对于刚开始进入火锅行业的人,我们应该要了解的,应该注意什么呢?今天渝中记忆老火锅用丰富的行业经验进行一个简单的分享。
  • 双高计划高职院校表(双高计划成绩单公布)
  • 2024-11-05双高计划成绩单公布来源:光明日报《光明日报》(2022年08月23日14版)【聚焦职业教育内涵式发展】这段时间,所有“双高计划”建设校刚刚递交了自己的“中期考试”答卷,并收到了“成绩单”根据教育部办公厅、财政部办公厅印。
  • 太极拳坐庄练气(澴圆太极功法之)
  • 2024-11-05澴圆太极功法之澴圆太极功法第三部分走进太极拳第二章脱规矩合规矩比足疗更好的碾脚法前文说过,太极拳在研究上有些滞后的问题,就拿碾脚来说吧一些杨氏太极拳的传人固然还在为碾脚争论不休,许多人认为“虚碾实不碾”,可是在“虚。
  • 陕西老潼关肉夹馍的肉(陕西老潼关肉夹馍)
  • 2024-11-05陕西老潼关肉夹馍肉夹馍,是陕西特色美食!在西安吃过肉夹馍的朋友,可能会发现,咋在这家店和那家店吃的肉夹馍的饼子咋不一样呢?其实,西安各家店肉夹馍的饼确实是有些区别的但是大致分为两类:一是白吉饼,是虎背铁圈菊花心的饼子。
  • 燕窝桃胶牛奶的炖煮方法(六妈炖品冰糖牛奶炖燕窝)
  • 2024-11-05六妈炖品冰糖牛奶炖燕窝有关燕窝功效的讨论非常多,有的人认为它营养价值高,对美容驻龄有非常大的作用;有的人则认为燕窝的价值被人为放大了,它不过就是普通蛋白质比较高的食品而已!而我认为呢,变美,是由内而外的事情,良好的心态才是。
  • 再见17岁的雨季(十七岁那年的雨季)
  • 2024-11-05十七岁那年的雨季剧照《悲伤逆流成河》雨哗啦啦地下,微风吹散了小月的长发,一双大大的眼睛懵懵懂懂,看着面前帅气的秋阳,他的嘴巴张张合合,他说,“小月,我喜欢你”小月的鞋子被雨水打湿,裙摆在风中飘扬,像是踩在棉花上,他看。
  • 小富生活记录(我们终于小富了)
  • 2024-11-05我们终于小富了作者:小瀑布/微信公众号:qspyq2015这是秦朔朋友圈的第1468篇原创首发文章小富2003年,中国人均GDP超过1000美元;2006年,越过2000美元关口;2008年,飞渡3000美元;20。
  • 尔豪高鑫二十年后聚会(尔豪高鑫照顾毁容妻子牺牲太大)
  • 2024-11-05尔豪高鑫照顾毁容妻子牺牲太大在近期上线的一众新剧中,热度最高的当属杨洋主演的《特战荣耀》虽然秦昊,任素汐主演的《亲爱的小孩》上线后也收获了不错的反响,不少观众都对这部作品究竟是在贩卖焦虑,还是有其存在的必要性展开了激烈的讨论,但。
  • 请笔仙有什么条件(三个同学因为好奇玩请)
  • 2024-11-05三个同学因为好奇玩请请笔仙,碟仙,筷仙等招灵游戏相信大家都是知道的,甚至还有很多人玩过,这种游戏也是中国最早期的“巫术”之一“扶乩”,而在古代,巫术只有巫师才可以施展,因为这是会给人带来厄运的巫术,只有具有巫力护体的巫师。