国际数据管理会议的论文集。
DNN 在许多领域得到广泛的应用和发展。日常使用神经网络的最常见例子是语言和图像识别, 以及从一种语言到另一种语言的自动翻译。DNN 也能用于交易。鉴于算法交易的快速发展, 对 DNN 的深入研究似乎是有用的。 最近, 开发人员已经提出了许多新的使用 DNN 的思路, 方法和途径, 并通过实验一一证明它们。本系列文章将研究 DNN 发展的状况和主要方向。有极大的空间可致力于使用实际实验和 DNN 的定性特征来测试各种思路和方法。在我们的工作中将仅使用多层完全连接的网络。 文章将有四个着重关注领域:
图例.18. 含异常值的训练数据集合 图例.19. 含插补异常值的训练数据集合 图例.20. 含插补异常值的测试数据集合 并非所有模型都对异常值敏感。举例, 诸如确定树 (DT) 和随机森林 (RF) 模型均对它们不敏感。 偏态以分布形式表示。计算变量的偏度系数是评估它的一般方式。通常, 负偏态表示平均值小于中值, 分布保持偏离。正偏态表示平均值大于中值, 分布具有正确的偏度。
如果预测器偏度为 0, 则数据绝对对称。 可以取对数来校正偏度, 并通过使用指数函数来保持偏离。 我们已经确定了偏度, 异常值和其它变化的关系。我们来看看去除和插补异常值之后, 偏度指数如何变化。 r如您所见, 已删除的异常值 x.out 和含插补异常值的 x.cap 集合是绝对对称的, 不需要任何校正。 我们也可以评估峰度。峰度 (Kurtosis) 或峰值系数是随机变量分布的峰值度量。正态分布的峰度为 0。如果分布峰值围绕数学期望呈尖锐状, 则峰度为正, 若峰值是平滑的, 则峰度为负。 在初始数据集 x 中的分布峰值非常尖锐 (峰度远大于 0), 在含有去除的异常值 x.out 的集合中, 峰值非常接近正常的峰值。含有插补异常值的集合具有更平滑的峰值。两个数据集合都不需要任何校正。 |