机器学习面试题精选连载(机器学习面试题精选连载)
机器学习面试题精选连载(机器学习面试题精选连载)
2024-11-08 05:24:34  作者:初寐四五回  网址:https://m.xinb2b.cn/life/snd372925.html

本期继续连载数学基础的最后一部分:概率论,包括基础概念、似然、最大似然估计、概率分布衡量等。至此数学基础知识就介绍完啦,下次开始介绍具体的模型算法。

《机器学习基础知识手册》总结了更多的问题,欢迎访问github地址:https://github.com/5663015/machine-learning-handbook

概率论基础概念排列:,组合:联合概率分布:多个变量的概率分布称为联合概率分布,表示和同时发生的概率。边缘概率:有时我们知道了一组变量的联合概率分布,还需要知道其中一个子集的概率分布,这种定义在子集上的概率分布称为边缘概率分布。对于离散型随机变量,根据下面的求和法来计算:条件概率:在给定和​发生的条件概率为:全概率公式:若事件​构成一个完备事件组且都有正概率,则对于任一个事件​x都有如下全概率公式:贝叶斯公式:贝叶斯公式是关于随机事件x和y的条件概率和边缘概率边缘概率的:

​是后验概率,​是条件概率或似然

期望:对于N个离散随机变量X,其概率分布为​,X的期望定义为:

对于连续型随机变量X,概率密度函数为​,则期望为:

期望的性质:

方差:随机变量X的方差用来定义它的概率分布的离散程度,定义为:

方差的性质:

概率和似然的区别与联系概率表达的是给定下样本随机向量的可能性,而似然表达了给定样本下参数为真实值的可能性。似然函数的形式是,其中"|"代表的是条件概率或者条件分布,因此似然函数是在"已知"样本随机变量的情况下,估计参数空间中的参数的值,因此似然函数是关于参数的函数,即给定样本随机变量后,估计能够使的取值成为的参数的可能性;而概率密度函数的定义形式是,即概率密度函数是在“已知”的情况下,去估计样本随机变量出现的可能性。似然函数可以看做是同一个函数形式下的不同视角。以函数​为例,该函数包含了两个变量,​和​,如果​已知为2,那么函数就是变量​的二次函数,即​ ;如果​已知为2,那么该函数就是变量b的幂函数,即​。同理,​和​也是两个不同的变量,如果​的分布是由已知的​刻画的,要求估计​的实际取值,那么​就是​的概率密度函数;如果已知随机变量​的取值,而要估计使​取到已知​的参数分布,就是似然函数的目的。最大似然估计和最大后验概率的区别对于函数​有两种情况:​保持不变,​为变量,此时函数为概率函数,表示的是​出现的概率;​是变量,​是变量,此时为似然函数,表示不同​下​出现的概率最大似然估计尝试求解使得出现概率最高的。对于m次实验,由于每次都是独立的,我们可以将中每一次实验结果的似然函数全部乘起来,那么,使得该式取得最大值的,即为的最大似然估计:最大似然估计方法尝试求解来最大化似然函数,显然计算出来的参数完全取决于实验结果。最大后验概率能够很大程度解决这个问题。该方法尝试最大化后验概率:

是已知的,只需最大化分子部分。和最大化似然的唯一区别是增加了先验概率

KL散度、JS散度、Wasserstein距离KL散度(不对称),也叫相对熵,衡量分布之间的差异性。KL散度并不是一个真正的距离,KL散度不满足对称性(即)和三角不等式(即不满足)

将KL散度展开可得,其中为熵,为交叉熵。KL散度实际上衡量的是两者之间的信息损失

KL散度的缺点:无界不对称若两个分布无重叠部分可能得到的结果无意义

关于分布不重合时的情况举例,对于如下的分布,P1在AB上均匀分布,P2在CD上均匀分布,控制着两个分布的距离远近。可得:


JS散度:解决了KL散度非对称的问题。KL散度和JS散度都有一个问题,即当两个分布和离得很远没有重叠时,KL散度是无意义的,JS散度是个常数。Wasserstein距离

​是​分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布​,可以从中采样​得到一个样本​x和y​,并计算出这对样本的聚类​,所以可以计算该联合分布​下,样本对距离的期望值​。在所有可能的联合分布中能够取到这个期望值的下界的就是wasserstein距离。直观上可以理解为在​这个路径规划下把土堆​挪到土堆​所需要的消耗。而Wasserstein距离就是在最优路径规划下的最小消耗,也叫做Earth-mover距离。

机器学习面试题精选连载(1)——模型基础

机器学习面试题精选连载(2)——微积分与线性代数

机器学习面试题精选连载(3)——线性代数

  • 吹牛不打草稿的呆妹儿(你的老女人呆妹儿小霸王已到)
  • 2024-11-08你的老女人呆妹儿小霸王已到#头条创作挑战赛#本期女神TOP:呆妹儿小霸王"四季更迭,唯美人不可辜负"呆妹儿小霸王(呆妹),原名吉昕薇1995年出生于陕西西安游良文化短视频达人、斗鱼直播游戏女主播也因玩网游《绝地。
  • 怎么炸鱼(最简单的炸鱼方法介绍)
  • 2024-11-08最简单的炸鱼方法介绍首先将鱼清洗干净,然后加入适量盐搅拌均匀,用清水再次清洗一遍,再次撒入适量的盐,腌制三十分钟腌制完成后将鱼汤倒出准备一个小盆倒入面粉、淀粉、小苏打搅拌均匀成面糊状切记面糊一定要形成拉丝的感觉才可以,千。
  • 亚马逊所有电影(亚马逊在印度推出超过40部当地语种作品)
  • 2024-11-08亚马逊在印度推出超过40部当地语种作品亚马逊周四公布了超过40部印地语、泰米尔语和泰卢固语的原创和联合制作的节目和电影,并在印度推出了电影租赁服务,公司希望能够在世界最大的娱乐市场之一赢得和保留更多的用户公司高管在一次活动中说,交易型视频。
  • 手机上能不能玩怪物猎人(手机上玩怪物猎人再也不是梦了)
  • 2024-11-08手机上玩怪物猎人再也不是梦了这一天小发比平时稍微早了一点来到办公室,不出所料,只有每天按时上班的面线待在自己的工位上,内容部的其他位置都是空荡荡的由于刚睡醒没多久,我的脑袋也还处于调整工作状态的阶段,于是我就想去找面线聊会儿天摸。
  • 评价杨超越的电视剧有哪些(盘点杨超越出演的6部电视剧)
  • 2024-11-08盘点杨超越出演的6部电视剧第一部:《极限17:羽你同行》-小娜杨超越在剧中饰演一位性格俏皮开朗的少女小娜,假期在爷爷的羽毛球馆帮工,与平安、子豪两兄弟相识,关系亲近暗恋的人是子豪,小娜一直都是单方面地对子豪好,但子豪对于她的态。
  • 帝国时代4为什么画质很模糊(帝国时代4高低画质对比发布)
  • 2024-11-08帝国时代4高低画质对比发布“重振RTS荣光”!即时战略大作《帝国时代4》即将于10月28日发售,这是一款专为PC打造的游戏,而为了能让不同硬件配置的玩家都能玩到它,游戏也自带了多种不同的画质预设选项,之后还会再追加一个低配版本。
  • 异地考驾照科目一有哪些(考驾照可异地分科目考试)
  • 2024-11-08考驾照可异地分科目考试特别声明:本文为新华网客户端新媒体平台“新华号”账号作者上传并发布,仅代表作者观点,不代表新华号的立场及观点新华号仅提供信息发布平台热点问题权威解答今天我们一起来了解一下异地驾考的相关问题?从5月20。
  • 三个与水相关的汉字(和水有关的有趣汉字)
  • 2024-11-08和水有关的有趣汉字有趣的汉字:一面临水叫岸或滩,两面临水叫湾,三面临水叫渚(zhu),四面临水大的叫岛小的叫礁,上面住人的叫洲,石头多的叫矶,水流经的水道千百年不变为江,水流经的河道不定总是变化的水道为河,东西向的叫横。
  • 安卓微信分身怎么弄(安卓微信分身如何弄)
  • 2024-11-08安卓微信分身如何弄以小米手机为例,进入手机桌面,找到【设置】并打开在【设置】中找到【应用设置】并点击进入在【应用设置】中点击进入【应用双开】在【应用双开】中找到【微信】点击进入将【应用双开】按钮打开,此时我们的桌面就会。
  • 九成宫偏旁部首图(欧阳询九成宫偏旁部首)
  • 2024-11-08欧阳询九成宫偏旁部首今天学习第二十八个偏旁部首:彡部彡(读shān山):彡部、三撇儿,作部首时可以表示和图画、形象、装饰有关的事物,有时又表示毛发、胡须“彡”分布在字的左、右、下侧,右侧居多注意三个撇画的笔法和位置变化不。
  • 陈情令金光瑶最后怎么样了(孟瑶认祖归宗改名金光瑶)
  • 2024-11-08孟瑶认祖归宗改名金光瑶《陈情令》的第一篇章眼看就快结束了,在近日的剧情中,魏无羡炼化出了阴虎符,温氏覆灭,射日之征基本也宣告结束了,不过真正的大boss才刚刚露头看过原著的小伙伴大概都知道,这个大boss就是我们的瑶妹金光。