Part.26_Probabilistic_Interpretation_of_MSE(ML_Andrew.Ng.)
# 均方差的合理性 - 概率解释
Tags: #MachineLearning #Math/Statistics #MeanSquareError #CostFunction
# 之前的一些讨论
- Mean_Squared_Error-均方误差
Mean_Squared_Error_均方误差
Mean Squared Error 2021-07-31 Tags: #MachineLearning #CostFunction Mean Square Error: 平均平方误差, 简称均方差, MSE, 又称 Mean Squared Deviation (MSD) 均方差的形式很简单, 但是也有许多问题值得思考 为什么采用平方, 而不是绝对值, 三次方等等 StackExchange上面一个很好的解释 Whydocostfunctionsusethesquare_error/为什么损失函数要使用均方误差 为什么MSE是合理的 均方误差有非常好的几何意义, 它对应了常用的欧几里得距离或简称"欧氏距离"...
- Why_do_cost_functions_use_the_square_error
Why_do_cost_functions_use_the_square_error
Why do cost functions use the square error? 2021-07-31 Tags: #MachineLearning #CostFunction #MeanSquareError Reference: StackExchange: why-do-cost-functions-use-the-square-error? StackExchange上面一个关于均方差的一个很好的解释, 翻译如下: Question: I'm just getting started with some...
# CS229 - Probabilistic Interpretation
- 独立同分布-IID
独立同分布-IID
独立同分布 Independent and identically distributed 2021-09-16 Tags: #Math/Statistics 定义 在概率论与统计学中,独立同分布(英语:Independent and identically distributed,或称独立同分配,缩写为iid、 i.i.d.、IID)是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立. ...
- 正态分布_高斯分布_Normal_Distribution-Gaussian_Distribution
正态分布_高斯分布_Normal_Distribution-Gaussian_Distribution
正态分布 2021-09-16 Tags: #Math/Statistics 概率密度函数 正态分布, 概率密度函数: or 重要性质 Mean and standard deviation $$ \begin{aligned} &\mu=E(X)=\int_{-\infty}^{\infty} x p(x) d x...
Prerequisite: 似然函数
我需要进一步学习概率论(贝叶斯统计)
下面叙述从概率角度该怎么理解均方差的合理性, 其实是最大似然估计的思想, 和Bayesian估计的思想很像.
- 前提: 误差是独立同分布(IID) 的且服从正态分布(Normal Distribution)
- 理论基础: 中心极限定理.
我们这样表示输入和输出的关系: 其中是输入, 是输出, 是参数向量, 表示误差.
根据我们的假设, 误差服从正态分布:
将输入输出的关系带进去, 可以得到的概率密度分布:
其中的就是数学期望, 所以我们可以这样表示:
- 下面是关键的一步:
我们总是想要根据给定的 (the design matrix, which contains all the ’s), 调整, 来得到对于输出的最佳预测.
所以我们给出这个问题的似然函数: 它表示在给定的下, 由训练集里面的得到对应的的"似然性/可能性/合理性"
根据似然函数的定义(就相当于条件概率), 对于我们的训练集, 表示如下:
- 注意是连乘, 因为是联合概率
根据极大似然估计的思想, 我们想要知道取得最大值的时候的值, 因为最大化这个函数十分复杂, 我们可以取对数(因为对数函数是严格递增的, 而这个的值域也在对数函数的定义域里面)
我们用表示: 所以要最大化相当于最小化 这和平方误差和只差一个
Note also that, in our previous discussion, our final choice of did not depend on what was , and indeed we’d have arrived at the same result even if were unknown. We will use this fact again later, when we talk about the exponential family and generalized linear models.