机器学习算法 .NET C#

使用 ML.NET 理解逻辑回归

Nicolas DESCARTES

5.00/5 (7投票s)

2024 年 1 月 4 日

CPOL

9分钟阅读

12393

258

如何在 ML.NET 中实现逻辑回归？

下载源代码 - 270.5 KB

引言

在机器学习中，分类任务是指根据输入数据的特征将其归入预定义的类或类别。目标是训练一个模型，使其能够学习数据中的模式和关系，从而能够对新的、未见过的数据实例进行预测或分配标签。

分类任务在各种领域都很普遍，例如垃圾邮件检测（将电子邮件分类为垃圾邮件或非垃圾邮件）、图像识别（识别图像中的对象或模式（例如，识别手写数字识别中的数字））或情感分析（确定文本数据中的情感（正面、负面、中立））。

在用于分类任务的各种算法中，常用的算法包括决策树、支持向量机、k-近邻和神经网络。在本系列中，**我们将深入探讨经典的逻辑回归**，重点介绍该技术固有的数学复杂性。

本文最初发布于此处。请参考此网站以获得更舒适的阅读体验。

什么是监督学习？

监督学习是一种机器学习范式，其中算法在**标记**的数据集上进行训练，这意味着用于训练的输入数据与相应的输出标签配对。监督学习的目标是让算法学习输入特征与相应输出标签之间的映射或关系。一旦模型训练完成，它就可以在收到新的、未见过的数据时进行预测或决策。

该过程涉及以下关键步骤：

使用包含输入-输出对的标记数据集进行训练。输入代表数据的特征或属性，而输出是标记的或期望的结果。
算法处理训练数据以学习输入特征与输出标签之间的模式和关系。在此训练阶段，算法会调整其内部参数以最小化其预测与实际标签之间的差异。
模型训练和验证后，即可用于对新的、未见过的数据进行预测或决策。它接收输入特征并根据学习到的模式生成输出预测。

监督学习本身分为两大类：回归和分类。

回归示例

在回归任务中，算法预测一个连续值或数量。例如，我们可以通过考虑房屋的大小（以平方米为单位）来预测房屋的价格。下面提供了一个训练数据样本。

大小（平方米）	价格（美元）
120	500000
40	100000
42	105000
64	165000
76	185000
55	145000
...	...

这个例子精确地说明了我们的定义：训练数据就是上面的表格，其中有一个输入变量（size）和一个输出变量（price）。下一步是选择一个算法来建立这个输入和输出之间的关系，使我们能够预测未知数据。例如，我们可以使用这个训练模型来确定一栋 100 平方米房屋的价格。

分类示例

在分类任务中，算法将输入数据分配给预定义的类别或类。例如，我们可以通过考虑一个人的身高（以厘米为单位）来预测其性别（男或女）。下面提供了一个训练数据样本。

What is the gender of a 172-centimeter individual ?

这些数据突出了分类任务的挑战。从上面的图表中可以看出，预测一个身高 172 厘米的人的性别并不容易——这个人可能是男性，也可能是女性。相反，我们的想法是根据身高来预测一个人是男性或女性的概率。用数学术语来说，我们的目标是预测 P(M∣h)，并且考虑到类别的二元性质，我们也可以表示 P(W∣h)=1−P(M∣h)。

免责声明 1

后一种情况不太现实。在现实世界中，通常会有多个观测变量，例如体重或脚的大小。但是，多维度的计算会变得更加复杂，可视化也更难呈现，并且为了说明目的，我们特意将自己限制在了一维视角。

免责声明 2

我们这里使用的例子涉及两个类别之间的二元分类。但是，需要注意的是，我们概述的原理同样适用于 K>2 个类的情况。

在本系列的后续部分中，我们将重点关注分类任务。

进入贝叶斯定理

贝叶斯定理是概率论中的一个基本原理，它根据可能与事件相关的条件的先验知识来描述一个事件的概率。该定理以提出该定理的托马斯·贝叶斯牧师的名字命名，在有新证据可用时更新概率方面特别有用。

该定理在数学上表示为 P(A∣B)=P(B∣A)P(A)/P(B)

P(A∣B) 是在事件 B 已发生的条件下事件 A 发生的概率。
P(B∣A) 是在事件 A 已发生的条件下事件 B 发生的概率。
P(A) 是事件 A 的先验概率。
P(B) 是事件 B 的先验概率。

贝叶斯定理使我们能够根据新证据 (B) 来更新我们对事件 (A) 发生概率的信念。

将贝叶斯定理应用于我们之前的分类任务，我们可以将其表示为 P(M∣h)=P(h∣M)P(M)/P(h))。

从这一点开始，我们可以利用全概率定律来表示 P(h)。事实上，男性和女性是成对不相交的事件，它们的并集构成了整个样本空间。

P(h)=P(h∣M)P(M)+P(h∣W)P(W)

我们只是在进行简单的数学函数重写，乍一看，这个过程似乎有些微不足道。然而，首先，它旨在证明 sigmoid 函数不是随意选择的，而是**自然地出现在公式中**。此外，我们将探讨特定案例以说明这种重写的明智性。

如果分布是高斯分布会怎样？

在前面的公式中，我们需要指定 P(h∣M, P(h∣W), P(M) 和 P(W) 的值。

P(h∣M) 和 P(h∣W) 量表示类条件概率：例如，给定我们处于 M 类，概率分布是什么？

一张图胜过千言万语，让我们可视化属于 M 类的点的分布。

Caution: The distribution above does not constitute a probability distribution.

注意：上图的分布不构成概率分布。

该分布与高斯分布非常相似，表明我们可以使用这种分布有效地对类条件概率进行建模。

类似地，我们可以对 W 类的类条件概率进行建模。

Caution: The distribution above does not constitute a probability distribution.

注意：上图的分布不构成概率分布。

同样，该分布与高斯分布非常相似，表明我们可以使用这种分布有效地对类条件概率进行建模。

因此，通过将所有这些公式纳入上述计算，我们可以最终得到 P(M∣h)，从而在**sigmoid 的参数中得到 h 的线性函数**。

P(M∣h)=σ(wh+b)

离散特征会怎样？

以伯努利分布为例，我们可以证明结果仍然是 sigmoid 参数的特征的线性函数。有兴趣深入研究此断言的读者可以参考《模式识别与机器学习》。

在相当普遍的假设下，类 C1 的后验概率可以写成作用于特征向量 ϕ 的线性函数的逻辑 sigmoid，因此 P(C1∣ϕ)=σ(wTϕ)。
Christopher Bishop（模式识别与机器学习）

什么是逻辑回归？

目标是扩展之前的发现，规定输出 P(C∣inputvariables) 是 sigmoid 参数中特征的线性函数。重要的是要注意，**我们不假设类条件概率遵循高斯分布或伯努利分布**。相反，我们从这些模型中汲取灵感来**规定**概率。

**这种先验地将特征的线性函数强加于 sigmoid 的方法称为逻辑回归。** sigmoid 有时被称为链接函数。

重要提示 1
通过允许灵活选择链接函数（在本例中，我们强制其为 sigmoid），可以更广泛地泛化这种方法。这种扩展催生了广义线性模型 (GLM) 的概念，这是一个在文献中得到广泛探讨的主题。

重要提示 2
逻辑回归属于称为判别模型的模型家族。在这种方法中，我们先验地规定输出的概率，**而不对类条件概率做出特定假设**，并且我们不使用贝叶斯定理。相比之下，那些首先对类条件概率进行建模的模型被称为生成模型。

现在，让我们探讨如何计算引入的参数（W 和 b）。为了说明这些概念，我们将假设一个二元分类，类别为 C1 和 C2，训练数据集 D 包含 N 条记录（x1，...，xN），每条记录包含 K 个特征（观测变量）。

引入成本函数

信息
这个量被称为似然。

最小化成本函数

我们现在要做的是最小化成本函数。有多种方法可以实现这一点，例如不同版本的梯度下降。在本文中，我们将选择利用牛顿-拉夫逊方法，观察到最小化 E 涉及使其梯度为零。

∇E(w)=0

在这种方法中，我们转向识别非线性方程的根的任务，正是在这种情况下，牛顿-拉夫逊方法才变得至关重要。

非常重要

存在几种优化算法，其中最常用的是梯度下降的变体（如随机梯度下降、共轭梯度）。在这里，我们介绍一种利用牛顿-拉夫逊算法的方法。

什么是牛顿-拉夫逊方法？

牛顿-拉夫逊方法的数学细节在原始论文中有所阐述。只需注意**收敛速度非常快，使得参数可以通过这些迭代快速学习。**

信息 1

该算法有时被称为迭代重加权最小二乘法 (IRLS)。

信息 2

我们在这里展示了二元类的框架。所有这些发现都可以扩展到 KK 个类，其中链接函数不再是 sigmoid，而是 softmax 函数。牛顿-拉夫逊方法仍可用于在此泛化上下文中训练参数。

如何预测未知输入？

一旦使用牛顿-拉夫逊方法训练了逻辑回归，就可以进行预测。对于输入 xx，我们可以使用前面推导出的公式（P(Ck∣x)=σ(WTx)）计算每个类 Ck 的概率，并选择概率最高的类别作为预测结果。

当然，理论就到此为止。是时候将这些知识付诸实践了。让我们使用 ML.NET 框架来应用这些公式。为避免本文内容过于冗长，有兴趣了解此实现的读者可以在此处找到。

历史

2024 年 1 月 4 日：初始版本