65.9K
CodeProject 正在变化。 阅读更多。
Home

机器学习走向失望

starIconstarIconstarIconstarIcon
emptyStarIcon
starIcon

4.15/5 (5投票s)

2018年10月24日

CPOL

7分钟阅读

viewsIcon

4035

机器学习走向失望。

从媒体围绕人工智能(AI)和机器学习(ML)的炒作来看,我们会觉得它们的应用即将普及, promises of fantastic results in terms of productivity and dire news for human employment. 尽管其中一些可能部分属实,但我相信在大多数情况下,这种承诺被过度夸大了,并且可以预见会出现部分失望。当我说的“部分失望”时,是因为许多自20世纪70年代以来开发的技术要么已经成熟,要么现在已经具备了使其使用可行的条件,但除了计算能力和大量可用数据之外,还需要更多。

在这里,我将更多地讨论机器学习(ML),而不是与人工智能(AI)相关的技术,因为其中许多技术已经在大学里教授了几十年,但在私营企业中的应用却很少——甚至就连那些经过尝试和验证的统计方法今天也很少被应用,所以机器学习(ML)的吸引力不大也就不足为奇了。 无论如何,机器学习(ML)被认为主要属于象牙塔式的学术研究范畴,充满了梦想和许多承诺,但实际结果却很少——并非说结果有时不令人印象深刻。 将研究转化为应用存在困难,并且决策者对这些技术在不付出极高代价的情况下获得结果的可行性持怀疑态度。 当我说成本时,它不仅包括花费的时间和金钱,还包括因项目未能达到预期而带来的信誉和声誉成本。 由于存在使机器学习(ML)难以使用的实际困难,例如

  • 缺乏用于训练和测试模型的合适数据集,随着时间的推移,这一点已不再是问题。
  • 缺乏运行多个模型迭代的计算能力,同样,随着时间的推移,这个问题也越来越小。
  • 缺乏具有工具和库的开发环境,使得测试和比较不同的机器学习(ML)算法和不同的模型更加容易。
  • 缺乏同时具备机器学习(ML)技术经验和领域经验的人员。

在21世纪初,使用机器学习(ML)仍然意味着使用通用编程语言或Matlab来实现机器学习(ML),一些统计软件包如SAS提供了一些工具,商业智能(BI)工具提供了一些支持某些机器学习(ML)功能的扩展。 但这些都属于专家的领域,这些工具要么太昂贵,要么太耗时,不允许更广泛的使用。 只有那些产生海量数据并拥有雄厚财力的大型机构才能负担得起这些工具。 推理模型、决策树和其他技术被用来检测信用卡欺诈、医疗欺诈,解析基因数据,任何需要筛选海量数据并找到可能线索的事情。

R和Python的出现使得机器学习(ML)的学习门槛大大降低,但真正激发对机器学习(ML)兴趣的是谷歌、苹果和Facebook在该领域的努力。 没有Siri、Google翻译等产品,以及许多其他相关的机器人和自主代理,这个领域仍将局限于研究实验室。 现在,这些巨头公司为了获得可用的AI/ML研究人员来开发他们的产品组合,正在进行一场AI军备竞赛。

正如我之前所说,缺乏具备领域知识的机器学习(ML)专业人士一直是一个问题。 拥有一个不具备该领域领域知识的机器学习(ML)专业人士会产生其特有的摩擦,这使得与相关利益相关者的沟通变得困难,并且通常意味着开发一个成功的应用程序的学习曲线更高。 而且,机器学习(ML)工具箱中有许多选择,从数值回归和逻辑回归、K-均值、向量机、决策树到随机森林,每种方法都有其独特的优缺点,因此良好的判断力是关键因素。

但是,机器学习(ML)也带来了一系列令人头疼的问题,由于它主要以数据驱动和统计为基础,所以在一个组织环境中,它在人类对确定性和可预测结果的需求这一关键方面存在不足。 组织结构喜欢可预测性,我们的法律条文在某些情况下在面临惩罚的情况下也要求它,而股东也喜欢它。 机器学习(ML)能提供什么取决于分析师调整和适应模型的能力,以及可用的训练数据,以最小化总误差。 这意味着,在任何给定时间,所使用的模型都会将一些真实情况标记为假(假阴性),或将一些虚假情况标记为真(假阳性)。

哪个经理会愿意知道,对于一个关键业务流程,机器学习(ML)模型的准确率是63%,即使实际上当前流程的准确率只有55%,但该流程是众所周知的且熟悉的。 现在,如果当前流程由人工操作,准确率是90%,但成本是20倍,并且需要几周而不是几个小时。 嗯,总会有权衡取舍的时候……

这种不确定的回报使得组织将IT精力集中在开发通过一组必需规则来自动化流程的系统上,并期望这些系统足以满足业务需求。 而且在许多情况下,这绰绰有余,并且非常成功。 对于一个简单的CRUD前端,它仅仅是访问数据库中的表单数据的接口,AI几乎没有用武之地。

当需要对信噪比低的数据进行分类,或者数据量太大以至于人类在合理的时间范围内无法完成分类时,问题就出现了。 随着组织积累大量数据或出于营销目的购买数据,这些问题变得越来越频繁。 一种方法是使用OLAP引擎对大型数据集进行聚合和交叉制表,这很有用但会丢失部分上下文;另一种方法是使用机器学习(ML)算法针对特定人群进行定位,以达到特定的行为。 这有望使营销预算更加有效,但也具有非常令人担忧的含义。

从开发团队和组织的角度来看,转向机器学习(ML)/人工智能(AI)的趋势不会一帆风顺。 谷歌、Facebook、亚马逊等大型科技公司和金融科技公司可以负担得起研发费用,并且这与它们的商业模式非常契合,而IBM等老牌科技巨头在该领域可能难以保持相关性。 技术初创公司在技术层面也可能表现出色,但盈利能力可能不确定。 非技术性中小型公司,以及成熟保守的公司,在理解这一切时可能会遇到很多困难,在某些情况下,它们可能会因此被吞并或倒闭。

在许多这些公司中,开发团队生活在自己的小世界里,有时越少知道越好。 但有一些共同的特征,这里有一些例子

  • 在许多公司中,商业智能(BI)和应用程序开发是分开的孤岛。
  • 团队领导者对他们不了解的技术持怀疑态度。 而且,他们试图推动使用适合他们特定技术领域(不要低估有些人需要用数据库解决一切的需求)的工具。
  • 另一方面,机器学习(ML)可能被用作一个“地位项目”的代名词,在管理层的支持下晋升某人的职业生涯,但实际上它既没有商业意义,或者要晋升的这个人又不具备必要的技能。
  • 团队缺乏技能,并且对可能危及他们工作的技术栈变化持敌对态度。
  • 中层管理人员的风险规避倾向导致了程序实施的瘫痪和延迟。

这并不意味着这些公司注定要失败,它们可能可以在其特定的利基市场中生存很长时间,直到整个开发团队通过自然减员被替换,或者人员在组织中晋升。 在中小型企业(SME)或成熟的非技术公司中实施机器学习(ML)本身并不是成功的秘诀,而且在大多数情况下,它在组织内部和外部都将是看不见的。

© . All rights reserved.