公司在面试一位数据科学

们先从轻松的话题开始。曾经有一家家的候选人。其中一位候选人完美地回答了所有问题,例如交叉验证的重要性、机器学习等等。

采访者问他完美的原因。 候选人回答说,他建立了一个数据库,其中包含这位面试官在过去五年中提出的所有问题,并建 特殊数据库 立了一个系统,可以以 85% 的准确率预测他会问的具体问题。

面试官表示,出于道德方面的考虑,他不能聘用该候选人。候选人回答说:“没关系。我只是在交叉验证我的预测模型。”

在我们分析交叉验证在机器学习中的重要性之前,让我们先看看交叉验证的定义。

什么是交叉验证?

交叉验证是一种评估统计分析如何推广到独立数据集的技术。

我们现在将剖析该定义并以简单的方式重现它。

在测试任何模型之前,你不想用一个独立的数据集来测试它吗?通常,在任何预测问题中,你的模型都会在已知数据集上工作。你也称之为训练数据集。然而,在实时计算中,你的模型必须处理一个未知数据集。

在这种情况下,你的模 台湾新闻型能准确预测结果吗?除非你在随机数据集上测试你的模型,否则你无法知道答案。这种测试就是我们所说的交叉验证。一旦你的模型通过了这项测试,它就适合在任何地方使用。

交叉验证的目的

交叉验证的目的是评估你 资格认证的重要性和不同类型的后续行动 的预测模型在未知数据集上的表现。我们将从外行的角度来看待它。

你正在学习如何驾驶汽车。现在,任何人都可以在空旷的道路上驾驶汽车。真正的考验是你如何在复杂的交通状况下驾驶。这就是为什么教练会在有交通拥堵的道路上训练你,以便你习惯这种路况。

因此,当您真正需要驾驶车辆时,无需教练在旁指导,您就能轻松应对各种情况,甚至可能是您从未遇到过的状况。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部