机器学习面试题精选连载(机器学习面试题精选连载)
机器学习面试题精选连载(机器学习面试题精选连载)
2024-11-22 08:32:10  作者:初寐四五回  网址:https://m.xinb2b.cn/sport/snd372925.html

本期继续连载数学基础的最后一部分:概率论,包括基础概念、似然、最大似然估计、概率分布衡量等。至此数学基础知识就介绍完啦,下次开始介绍具体的模型算法。

《机器学习基础知识手册》总结了更多的问题,欢迎访问github地址:https://github.com/5663015/machine-learning-handbook

概率论基础概念排列:,组合:联合概率分布:多个变量的概率分布称为联合概率分布,表示和同时发生的概率。边缘概率:有时我们知道了一组变量的联合概率分布,还需要知道其中一个子集的概率分布,这种定义在子集上的概率分布称为边缘概率分布。对于离散型随机变量,根据下面的求和法来计算:条件概率:在给定和​发生的条件概率为:全概率公式:若事件​构成一个完备事件组且都有正概率,则对于任一个事件​x都有如下全概率公式:贝叶斯公式:贝叶斯公式是关于随机事件x和y的条件概率和边缘概率边缘概率的:

​是后验概率,​是条件概率或似然

期望:对于N个离散随机变量X,其概率分布为​,X的期望定义为:

对于连续型随机变量X,概率密度函数为​,则期望为:

期望的性质:

方差:随机变量X的方差用来定义它的概率分布的离散程度,定义为:

方差的性质:

概率和似然的区别与联系概率表达的是给定下样本随机向量的可能性,而似然表达了给定样本下参数为真实值的可能性。似然函数的形式是,其中"|"代表的是条件概率或者条件分布,因此似然函数是在"已知"样本随机变量的情况下,估计参数空间中的参数的值,因此似然函数是关于参数的函数,即给定样本随机变量后,估计能够使的取值成为的参数的可能性;而概率密度函数的定义形式是,即概率密度函数是在“已知”的情况下,去估计样本随机变量出现的可能性。似然函数可以看做是同一个函数形式下的不同视角。以函数​为例,该函数包含了两个变量,​和​,如果​已知为2,那么函数就是变量​的二次函数,即​ ;如果​已知为2,那么该函数就是变量b的幂函数,即​。同理,​和​也是两个不同的变量,如果​的分布是由已知的​刻画的,要求估计​的实际取值,那么​就是​的概率密度函数;如果已知随机变量​的取值,而要估计使​取到已知​的参数分布,就是似然函数的目的。最大似然估计和最大后验概率的区别对于函数​有两种情况:​保持不变,​为变量,此时函数为概率函数,表示的是​出现的概率;​是变量,​是变量,此时为似然函数,表示不同​下​出现的概率最大似然估计尝试求解使得出现概率最高的。对于m次实验,由于每次都是独立的,我们可以将中每一次实验结果的似然函数全部乘起来,那么,使得该式取得最大值的,即为的最大似然估计:最大似然估计方法尝试求解来最大化似然函数,显然计算出来的参数完全取决于实验结果。最大后验概率能够很大程度解决这个问题。该方法尝试最大化后验概率:

是已知的,只需最大化分子部分。和最大化似然的唯一区别是增加了先验概率

KL散度、JS散度、Wasserstein距离KL散度(不对称),也叫相对熵,衡量分布之间的差异性。KL散度并不是一个真正的距离,KL散度不满足对称性(即)和三角不等式(即不满足)

将KL散度展开可得,其中为熵,为交叉熵。KL散度实际上衡量的是两者之间的信息损失

KL散度的缺点:无界不对称若两个分布无重叠部分可能得到的结果无意义

关于分布不重合时的情况举例,对于如下的分布,P1在AB上均匀分布,P2在CD上均匀分布,控制着两个分布的距离远近。可得:


JS散度:解决了KL散度非对称的问题。KL散度和JS散度都有一个问题,即当两个分布和离得很远没有重叠时,KL散度是无意义的,JS散度是个常数。Wasserstein距离

​是​分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布​,可以从中采样​得到一个样本​x和y​,并计算出这对样本的聚类​,所以可以计算该联合分布​下,样本对距离的期望值​。在所有可能的联合分布中能够取到这个期望值的下界的就是wasserstein距离。直观上可以理解为在​这个路径规划下把土堆​挪到土堆​所需要的消耗。而Wasserstein距离就是在最优路径规划下的最小消耗,也叫做Earth-mover距离。

机器学习面试题精选连载(1)——模型基础

机器学习面试题精选连载(2)——微积分与线性代数

机器学习面试题精选连载(3)——线性代数

  • 乐视y2pro详细配置(799元的iPhone)
  • 2024-11-22799元的iPhone国内手机市场内卷严重,但竞争似乎更多集中在中高端手机层面,几百元的手机似乎并没有那么血雨腥风,大众关注度也不是太高前些天偶然发现,曾经把性价比发挥到极致的乐视手机重出江湖,推出了外观酷似iPhone的。
  • 愿有人陪你颠沛流离风雨依旧(愿有人陪你颠沛流离)
  • 2024-11-22愿有人陪你颠沛流离这世上,有人住高楼,有人在深沟,有人光万丈,有人一身锈你有没有在深夜里,一个人检讨过,自己究竟是哪一步走着,让自己活成了今天的样子当你觉得孤独无助时,想一想还有几十万亿的细胞只为了你一个人而活大胆往前。
  • 手机上免费字体怎么弄(教程二)
  • 2024-11-22教程二手机主题商店的字体太贵没有自己想要的字体用其他的字体软件,手机还需要root也许root了更换的字体也不完整下面小编就教给大家一个方法(华为亲测可行,其他品牌仅供参考)⑴在手机自带的主题里面找到可供下。
  • 大国沙文主义的(反对大国沙文主义)
  • 2024-11-22反对大国沙文主义相知无远近,万里尚为邻在中国外交的字典中,国家不分大小,真诚友好、平等相待的内涵始终如一5月28日,国家主席在人民大会堂会见瓦努阿图总理萨尔维时指出:“中国一贯主张国家不分大小、强弱、贫富,都是国际社。
  • 橡胶锤子使用方法(橡胶锤子的使用方法介绍)
  • 2024-11-22橡胶锤子的使用方法介绍橡胶锤子在使用时,只需将需用的锤头安装上锤柄即可使用经反复验证,具有使用方便、携带方便、组装快捷等特点;锤头直径1厘米,由高碳钢切削而成,圆锥锤头有极强的穿透力橡皮锤用途与类型车身维修中使用多种规格和。
  • 车内孔不光(车上这个孔别不当回事)
  • 2024-11-22车上这个孔别不当回事在现如今生活中,汽车已经成了多数人必备的出行工具,那么为什么汽车被越来越多的人认可,是因为汽车带给人们的便利确实很大,也是其他交通工具给不了的,所以现在越来越多的人在经济条件允许的时候,都会第一时间去。
  • 最囧游戏2三十七关怎么过(最囧游戏2第27关怎么过)
  • 2024-11-22最囧游戏2第27关怎么过点击三个数字使他们相加等于十最囧游戏2第27关点击三个数字,使他们相加等于十题目只说点击三个数字,没有说一个数字不可以点两次,所以数字1点两次,再数字8点1次,就相加等于十啦(如下图所示),。
  • 什么样的鼻型最好看(好看的鼻型有哪几种)
  • 2024-11-22好看的鼻型有哪几种鼻子位于面部中央,向前隆起呈长三角形锥体状,对构成容貌起重要作用鼻子的形态因种族不同而有显著的差异欧美人以高鼻梁为美,而中国人鼻梁以小巧细窄为美你们觉得什么样的鼻子比较好看呢?挺拔的高鼻梁?洋气的小翘。
  • 卡介苗没有好能打别的疫苗吗(什么时候能用上疫苗)
  • 2024-11-22什么时候能用上疫苗14日下午,国务院联防联控机制召开新闻发布会,介绍新冠肺炎药物研发、疫苗研制等科研攻关进展情况,来看重点————疫苗——三个疫苗获批进入临床试验目前已经有三个疫苗获批进入临床试验——其中陈薇院士团队的。
  • 新楼盘什么时候入手最好(买新楼盘的这四个点重要)
  • 2024-11-22买新楼盘的这四个点重要现在越来越多的人喜欢新楼盘,那么新楼盘应该注意哪些点呢?一般有以下四类参数,购房的朋友们一定要加以注意,因为它们会直接影响到您今后的居住舒适度一、容积率容积率一般指一个小区的地上建筑总面积与用地面积的。
  • 火神山雷神山历经多久建成(看火神山雷神山的)
  • 2024-11-22看火神山雷神山的这几天宅在家里的你都做什么了?当很多人在家“百无聊赖”时有数千万网友却化身“云监工”在线“监督”武汉“火神山”和“雷神山”两所医院的建设进度来自五湖四海的网友自称“监工”、“包工头”纷纷围观工地建设直。
  • 白色缎面婚鞋推荐(除了撞款的大牌婚鞋)
  • 2024-11-22除了撞款的大牌婚鞋你找遍了各大平台看了几十篇攻略,也没有买到一双合适的婚鞋你觉得挑选一双适合自己的完美婚鞋和挑老公的难度差不多!款式、颜色、面料、跟高、舒适度、与婚纱搭配……所有这些都是让你纠结的因素眼看着婚期临近,你。