基于算计机视觉的无人监测的ML业务案例

  我们的一个项目涉及使用无监测的ML算法来比较虚拟机的性能。由于项目区域有点难以理解,我们决定不使用任何标签,因为它们可能是主观的,而是建立了一个独立的系统;因此,我们做了以下工作:

  1、在云上创建虚拟机

  2、通过运行不同的测试来对其进行基准测试,以衡量VM的性能。

  3、收集了大约2000个特征作为原始数据。

  4、分析收集到的原始数据并提取较有价值的基准。

  5、将基准测试压缩成多个系数(并行化、一个核、稳定性、数据库、RAM)

  6、计算关税系数,作为性能和价格之间的平衡。

  7、根据其特点和价格选择较佳实例类型

  上面描述的过程是降维技术的一个很好的例子,因为我们没有包含系统的所有特征,而是包含了可以被认为是结果“有代表性”的折叠信息。

  人工标记评价与自动化

  该项目涉及人类标签的评估,这是目前数据科学中的一项艰巨任务。我们须找到较好的方法来评估人类标签的质量。有了关于个人和法律实体的数据,我们应该将其分为三类,进行分析,找出具体的标签,并预测标签的准确性。

  我们根据特定的特征设置人体动作标签,构建分类器,并对这些标签的质量进行评价。如果没有用户作为变量来划分类几乎是不可能的,因为它们根据特征和标签彼此太近了。我们将用户作为一个变量,然后人类行为标签依赖于这个人。通过在算法中添加一个人,我们可以获得较好的结果。重要的是数据应该是独立的,这意味着它不应该与对标签感兴趣的人有关系。因此,我们得出结论,没有正确的方法来进行分类任务,较好使用原始数据。

  其实任何商业案例都没有完好的途径。而无人监测的机器学习只是获得预期结果的工具。如果您确信它满足您的业务需求,它将运行良好。

  要点:

  1、没有自动监测的机器学习仍然需要高质量的数据处理,尽管没有标记。

  2、适当的数据准备方法通过提高数据的准确性来驱动“正确”的业务洞察力。

  3、不受监测的机器学习算法应该根据特定的业务案例来选择,而不是取决于特定方法的流行程度。

  4、数据科学的目标机器学习咨询是解决商业问题,而不是数据科学问题。