54.6 1.38 8.62简便算法求解

众所周知的k-means聚类算法必须在k给定的条件下才能给出无监督学习结果,简单讲就是必须事先知道有几个类别方能完成聚类,而我们大多时候不能知道或者很难知道具体数据中有多少个类。因此寻找一个在无给定k条件下(即不知道有多少类别的情况下)的聚类算法显得尤为重要。

在这里本人试探性地给出一种自认为可行的方法(希望读者与我一同探讨该方法的正确性)。

首先我们必须先给出一个限定条件,该限定条件限定了,每组分类中分类点(简单讲就是k-mean中的均值点,某种意义上讲也可认为是质点)到该分组个点的最大距离。

有了以上给定前提后我们就可以往下分析问题了:

1.首先考虑,当前数据组是否可以作为一个组,若可以则将该分组插入结果分组集。(其考虑标准为,先算出分类点坐标,然后把各个点到该分类点的距离逐一计算,并比较得是否所有数据点到分类点的距离都小于给定的最大距离,若是则该为一个可行分组,若否则不可)。

2.把所有数据点利用2-means算法二等分,则得到2组数据,每组数据递归地调用该方法(也就是把这两组数据集分别从第1步开始迭代)。

由于任何的非负整数都可以通过二进制表示,因此能保证所有可能分组数可达。而以上的过程实际上是一个二进制表示的过程,我们可以吧递给看成是二叉树的模样,而其分类种也就是叶子节点数量,如图1。

其中可以清晰的看到第一次迭代吧数据集分成了2组,而后再前一组(A1)中由于已经达到标准,所以作为结果集的一项被保留了下来,而后一组(A2),由于仍然不满足要求仍需迭代,后面一次迭代把改组分成了2个合格的可行组(B1,B2)

由此迭代结束,输出结果集({A1,B1,B2})。

在得到以上结果集后,我们会发现有些组本可以合并为一组但却因为上述做法而分别对应到了两个分组,若下图2。

在这里我们本应该吧中间两组作为一组,然而由于随机选择初始迭代点的原因,会导致如上这种过度分组的现象,为了解决上述现象,我做了一个优化,其思路待我慢慢讲来。

我们先把以上的结果集中的分组尝试进行合并。任意取2个结果集进行如下操作。

1判断结果集中是否存在两个可以合并的分组(即把该两个分组合并为一个后仍然满足最大距离要求)若有则转2,若无则输出结果,算法终止。

2.把两个分组S1.,S2合并为一个分组S,用S替代S1,S2,并更新结果集,转1。

完成这样的任务后我们就解决了上面的问题了,很开心得到如下结果,如图3

哈哈哈!还没完呢?优化继续。。。。。

这里有这样的问题:是否某些组可以拆解为其他分组的一部分呢?这样的话这个分组就不复存在了完全归为其他分组的一部分,这样也可以减少分组数量。

基于这个思想,我们得出这样的算法:

1、 判断是否存在某个分组其完全可以拆解为其他分组的一部分(这个判断略微复杂,你需要做的可不只是所把每一个试着放入其他分组中这么简单,你要考虑到某一元素放入其他分组后整个结果集也变了,该被放入分组的分组点也变了,所以简单判断一个分组各个元素独立的属于其他分组是毫无意义的,这其中是一个动态变化着的问题,不能静态考虑),若没有则输出结果。若有转2。

2、 将该分组解开,依次放入结果集的其他分组中,并从结果集中删除该分组。转1。

这里给出随机生成的1000组2维数据和5维数据(每维数据在0-100之间,保留2位小数)聚类后的结果如下:

二维数据(组内距分类点最大距离限定为6.0):

五维数据结果(组内距分类点最大距离限定为60.0):

温馨提示:由于会计制度标准不统一,部分缺失的数据可能会显示0,但不代表其数值本身为0,请您注意分辨核对。

资产负债比率(重要科目)

五大财务比率(+成长能力)

 净利润(持续经营业务)
 净利润(终止经营业务)
EPS(基本每股盈余)
EPS(摊薄每股盈余)
EBITDA(税息折旧及摊销前利润)
 净利润(持续经营业务)
 净利润(终止经营业务)
EPS(基本每股盈余)
EPS(摊薄每股盈余)
EBITDA(税息折旧及摊销前利润)
经营活动产生的现金流量净额
 + 应付账款和应计费用的变化
 + 停止运营活动的现金流
投资活动产生的现金流量净额
 + 购买物业,厂房,设备
 + 出售物业,厂房,设备
 + 净无形资产购买和销售
 + 停止投资活动产生的现金
 + 其他投资活动现金流
融资活动产生的现金流量净额
 + 其他融资活动现金流
现金及现金等价物净增加额(净现金流)
经营活动产生的现金流量净额
 + 应付账款和应计费用的变化
 + 停止运营活动的现金流
投资活动产生的现金流量净额
 + 购买物业,厂房,设备
 + 出售物业,厂房,设备
 + 净无形资产购买和销售
 + 停止投资活动产生的现金
 + 其他投资活动现金流
融资活动产生的现金流量净额
 + 其他融资活动现金流
现金及现金等价物净增加额(净现金流)

注:本页数据货币单位为美元 |

我要回帖

更多关于 56.8+22.8用简便方法计算 的文章

 

随机推荐