Cyan's Blog

Search

Search IconIcon to open search

为什么Softmax回归不用MSE

Last updated Feb 28, 2022 Edit Source

# 为什么Softmax (或者Logistic) 不用MSE作为损失函数?

2022-02-28

Tags: #DeepLearning #MachineLearning #SoftmaxRegression #LogisticRegression #CostFunction #MeanSquareError #CrossEntropy

# Logistic

# 公式推导

# 解释

# 分类问题里面MSE并不是一个凸函数, 这可能导致算法无法学习到最优的参数.

我们作出MSE的二阶导函数图像如下: 可以看到并不是恒为非负的, 这说明函数并不是凸函数.

# 交叉熵梯度的变化趋势与值域都更理想

# 交叉熵的计算更简单

# 另注

# Softmax

Softmax的情况太复杂了, 我们给出一些其他论文里面的论证:

# Others


  1. Sigmoid in cross-entropy and mean-squared-error ↩︎

  2. 这篇文章是Xavier初始化的文章(zotero://select/items/@glorot2010understanding) ↩︎

  3. P. Golik, P. Doetsch, and H. Ney, “Cross-entropy vs. squared error training: a theoretical and experimental comparison,”(zotero://select/items/@Golik2013CrossentropyVS) 2013. doi: 10.21437/Interspeech.2013-436↩︎

  4. 损失函数的可视化——浅论模型的参数空间与正则_机器学习杂货铺1号店-CSDN博客 ↩︎