机器学习面试题精选连载(机器学习面试题精选连载)
机器学习面试题精选连载(机器学习面试题精选连载)
2024-11-25 06:00:42  作者:初寐四五回  网址:https://m.xinb2b.cn/tech/snd372925.html

本期继续连载数学基础的最后一部分:概率论,包括基础概念、似然、最大似然估计、概率分布衡量等。至此数学基础知识就介绍完啦,下次开始介绍具体的模型算法。

《机器学习基础知识手册》总结了更多的问题,欢迎访问github地址:https://github.com/5663015/machine-learning-handbook

概率论基础概念排列:,组合:联合概率分布:多个变量的概率分布称为联合概率分布,表示和同时发生的概率。边缘概率:有时我们知道了一组变量的联合概率分布,还需要知道其中一个子集的概率分布,这种定义在子集上的概率分布称为边缘概率分布。对于离散型随机变量,根据下面的求和法来计算:条件概率:在给定和​发生的条件概率为:全概率公式:若事件​构成一个完备事件组且都有正概率,则对于任一个事件​x都有如下全概率公式:贝叶斯公式:贝叶斯公式是关于随机事件x和y的条件概率和边缘概率边缘概率的:

​是后验概率,​是条件概率或似然

期望:对于N个离散随机变量X,其概率分布为​,X的期望定义为:

对于连续型随机变量X,概率密度函数为​,则期望为:

期望的性质:

方差:随机变量X的方差用来定义它的概率分布的离散程度,定义为:

方差的性质:

概率和似然的区别与联系概率表达的是给定下样本随机向量的可能性,而似然表达了给定样本下参数为真实值的可能性。似然函数的形式是,其中"|"代表的是条件概率或者条件分布,因此似然函数是在"已知"样本随机变量的情况下,估计参数空间中的参数的值,因此似然函数是关于参数的函数,即给定样本随机变量后,估计能够使的取值成为的参数的可能性;而概率密度函数的定义形式是,即概率密度函数是在“已知”的情况下,去估计样本随机变量出现的可能性。似然函数可以看做是同一个函数形式下的不同视角。以函数​为例,该函数包含了两个变量,​和​,如果​已知为2,那么函数就是变量​的二次函数,即​ ;如果​已知为2,那么该函数就是变量b的幂函数,即​。同理,​和​也是两个不同的变量,如果​的分布是由已知的​刻画的,要求估计​的实际取值,那么​就是​的概率密度函数;如果已知随机变量​的取值,而要估计使​取到已知​的参数分布,就是似然函数的目的。最大似然估计和最大后验概率的区别对于函数​有两种情况:​保持不变,​为变量,此时函数为概率函数,表示的是​出现的概率;​是变量,​是变量,此时为似然函数,表示不同​下​出现的概率最大似然估计尝试求解使得出现概率最高的。对于m次实验,由于每次都是独立的,我们可以将中每一次实验结果的似然函数全部乘起来,那么,使得该式取得最大值的,即为的最大似然估计:最大似然估计方法尝试求解来最大化似然函数,显然计算出来的参数完全取决于实验结果。最大后验概率能够很大程度解决这个问题。该方法尝试最大化后验概率:

是已知的,只需最大化分子部分。和最大化似然的唯一区别是增加了先验概率

KL散度、JS散度、Wasserstein距离KL散度(不对称),也叫相对熵,衡量分布之间的差异性。KL散度并不是一个真正的距离,KL散度不满足对称性(即)和三角不等式(即不满足)

将KL散度展开可得,其中为熵,为交叉熵。KL散度实际上衡量的是两者之间的信息损失

KL散度的缺点:无界不对称若两个分布无重叠部分可能得到的结果无意义

关于分布不重合时的情况举例,对于如下的分布,P1在AB上均匀分布,P2在CD上均匀分布,控制着两个分布的距离远近。可得:


JS散度:解决了KL散度非对称的问题。KL散度和JS散度都有一个问题,即当两个分布和离得很远没有重叠时,KL散度是无意义的,JS散度是个常数。Wasserstein距离

​是​分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布​,可以从中采样​得到一个样本​x和y​,并计算出这对样本的聚类​,所以可以计算该联合分布​下,样本对距离的期望值​。在所有可能的联合分布中能够取到这个期望值的下界的就是wasserstein距离。直观上可以理解为在​这个路径规划下把土堆​挪到土堆​所需要的消耗。而Wasserstein距离就是在最优路径规划下的最小消耗,也叫做Earth-mover距离。

机器学习面试题精选连载(1)——模型基础

机器学习面试题精选连载(2)——微积分与线性代数

机器学习面试题精选连载(3)——线性代数

  • 不用钥匙就能开的智能门锁(手机变钥匙一碰即开)
  • 2024-11-25手机变钥匙一碰即开如果问你出门最不会忘记的一件东西是什么,我想很多小伙伴一定会说手机的确如此,手机已经成为了我们目前生活中的一部分,通讯需要它,支付需要它,联系客户需要它,甚至上个厕所很多小伙伴都需要它刷刷新闻那么我在。
  • 梁咏琪带女儿变美(梁咏琪5岁混血女儿超漂亮)
  • 2024-11-25梁咏琪5岁混血女儿超漂亮文/孕婴帮,欢迎个人转发分享!随着经济全球化的发展,很多外国友人定居中国和中国人结婚生子,他们结合生出的宝宝就是“混血宝宝”,有一些混血宝宝的混血特征并不明显,但有的混血感十足梁咏琪去法国旅游遇见了真。
  • 多动孩子训练孩子的行为制止力(过早训练孩子独立)
  • 2024-11-25过早训练孩子独立随着“奥数竞赛”“英语考证”逐渐降温,越来越多的父母开始重视分数之外的能力,更有妈妈反其道而行之,表示坚决不上课外班,尤其推崇独立教育、吃苦教育,觉得这才是培养英才的必由之路这样真的好吗?缺爱的孩子,。
  • 朝霞不出门谚语下一句(朝霞不出门晚霞行千里)
  • 2024-11-25朝霞不出门晚霞行千里农谚是古人生产、生活后经验的总结,用简单的词语去形容世上万物规律和深意,农民的智慧让人刮目相看至今还有很多的经典农谚流传下来,下面这些农谚你都知道吗?朝霞不出门,晚霞行千里如果早晨看到天边有朝霞的话,。
  • 市安监局作风建设(市工业和信息化局)
  • 2024-11-25市工业和信息化局本网讯保山市工业和信息化局以推进作风革命、加强效能建设为契机,紧紧按照市委市政府“提振精气神,打赢翻身战”总体要求和部署,重点在产业布局、招商引资、项目推进、服务优化等四个方面落实和突破工业项目推进优。
  • 不疯不魔不成活(不疯魔不成活)
  • 2024-11-25不疯魔不成活作者:俞方远“精神科医师,是一个专门和精神病患者打交道的职业这个职业最可怕的,是有可能在不知不觉中,被精神病患者同化有时候,甚至分不清自己到底是精神病患者,还是精神科医生又或者,自己是精神病患者假冒的。
  • 关于匠心的文案(描写匠心的文案)
  • 2024-11-25描写匠心的文案世界再嘈杂,匠人的内心,绝对必须是安静、安定的(作者:李宗盛)科学是非常爱妒忌的,科学只把最高的恩典赐给专心致志地献身于科学的人(作者:费尔巴哈)精益求精,创民族工匠精神;匠心独运,传华夏劳动智慧——。
  • 现代悦动(北京现代悦动)
  • 2024-11-25北京现代悦动作为换代车型,全新一代悦动从外观设计、科技配置、动力总成等方面进行了全面的升级车长为4510毫米,车头看上去十分修长车尾造型与现代悦纳比较相似,不过细节设计有所更丰富,例如两侧的尾灯造型更加修长中低配。
  • 四川大山里的野生天麻(原始森林中的珍贵野生天麻)
  • 2024-11-25原始森林中的珍贵野生天麻天麻,又称“神麻”据《本草纲目》:“治肝气不足,风虚内作,头晕目眩,麻木不仁,语言不遂”,视为神药既可与其它中药配伍并用,亦可单独研粉、泡酒服用,还可炖鸡、肉等作营养食品“常服不独去病,乃保真延年”(。
  • 松香属于哪类火灾(松香属于哪一类火灾)
  • 2024-11-25松香属于哪一类火灾松香属于B类火灾B类火灾指液体火灾和可熔化的固体物质火灾,如汽油、煤油、原油、甲醇、乙醇、沥青、石蜡火灾松香为淡黄色透明及不透明颗粒或块状,有芳香味,是二级易燃固体松香对光、热、氧的作用很敏感,尤其是。