Last updated Feb 28, 2022 Edit Source

# 为什么Softmax (或者Logistic) 不用MSE作为损失函数?


Tags: #DeepLearning #MachineLearning #SoftmaxRegression #LogisticRegression #CostFunction #MeanSquareError #CrossEntropy

# Logistic

# 公式推导

# 解释

# 分类问题里面MSE并不是一个凸函数, 这可能导致算法无法学习到最优的参数.

我们作出MSE的二阶导函数图像如下: 可以看到并不是恒为非负的, 这说明函数并不是凸函数.

# 交叉熵梯度的变化趋势与值域都更理想

# 交叉熵的计算更简单

# 另注

# Softmax

Softmax的情况太复杂了, 我们给出一些其他论文里面的论证:

# Others

