65.9K
CodeProject 正在变化。 阅读更多。
Home

学习机器学习,第三部分:应用

starIconstarIconstarIconstarIconstarIcon

5.00/5 (7投票s)

2017年2月14日

CPOL

14分钟阅读

viewsIcon

15641

本文将对机器学习(ML)进行基本介绍。您无需任何机器学习知识,即可从中获得最大收益。在开始之前,让我们先回答这个问题:“机器学习是否如此重要,以至于我真的需要阅读这篇文章?”

机器学习的应用

在介绍了机器学习并讨论了各种实现其功能的技巧之后,让我们继续探讨其在相关领域的应用:大数据、人工智能(AI)和深度思考。

大数据

2010年之前,机器学习的应用在特定领域发挥着重要作用,例如车牌识别、网络攻击防护和手写字符识别。2010年之后,大量的机器学习应用与大数据相结合,为机器学习应用提供了最佳环境。

大数据的主要魔力在于其能够做出高度准确的预测。例如,谷歌利用大数据预测了H1N1在美国特定城市的爆发。对于2014年世界杯,百度准确预测了从淘汰赛到决赛的比赛结果。这令人惊叹,但是什么赋予了大数据如此强大的力量?是机器学习技术。大数据的核心在于其从数据中提取价值的能力,而机器学习是实现这一目标的关键技术。对于机器学习而言,数据越多,模型就越准确。同时,复杂算法所需的计算时间需要分布式计算、内存计算等技术。因此,机器学习的兴起与大数据密不可分。

然而,大数据并不等同于机器学习。大数据包括分布式计算、内存数据库、多维分析等技术。它涉及以下四种分析方法:

  • 大数据,保留分析:数据仓库领域的OLAP分析思维(多维分析思想)
  • 大数据,大分析:数据挖掘和机器学习分析方法
  • 流分析:事件驱动架构
  • 查询分析:NoSQL数据库

尽管机器学习的结果令人惊叹,并且在某些情况下是展示大数据价值的最佳方式,但它并非大数据可用的唯一分析方法,而是几种大数据分析方法之一。

话虽如此,机器学习与大数据的结合已经产生了巨大的价值。基于机器学习技术的发展,数据可以用来做出预测。例如,经验越丰富,就越能预测未来。据说“经验丰富”的人比“新手”更擅长他们的工作。这是因为经验丰富的人可以根据他们的经验制定更准确的规则。

关于机器学习还有另一种理论:模型拥有的数据越多,其预测准确性就越高。下图显示了机器学习准确性与数据之间的关系。

图表显示,当各种算法的输入数据量达到一定水平后,它们的准确性几乎相同且很高。这导致了机器学习领域的一句名言:“获胜的不是拥有最佳算法的人,而是拥有最多数据的人!”

大数据时代为机器学习的广泛应用提供了许多优势。例如,随着物联网和移动设备的不断发展,我们现在拥有更多的数据,包括图像、文本、视频和其他类型的非结构化数据。这确保了机器学习模块拥有更多数据。同时,大数据的分布式计算技术Map-Reduce能够实现更快的机器学习,使其使用更方便。大数据的优势使得机器学习的优势能够得到充分发挥。

深度学习

最近,机器学习的发展迎来了新的转折点,即深度学习。

尽管深度学习这个词听起来有些夸张,但其概念却非常简单。它指的是将传统神经网络发展为拥有多个隐藏层的神经网络。

在上一篇博文中,我们谈到了神经网络在20世纪90年代后的消失(链接到第二篇博文)。然而,BP算法的发明者Geoffrey Hinton从未放弃过他对神经网络的研究。当神经网络的隐藏层超过两层时,其训练速度会变得非常慢。它们一直不如SVM实用。然而,在2006年,Hinton在《科学》杂志上发表了一篇文章,证明了两个观点:

  • 具有多个隐藏层的神经网络拥有出色的特征学习能力。这些网络学习到的特征使它们能够提供更基本的数据表征,这有利于可视化和分类。
  • 深度神经网络的训练很困难,但可以通过逐步初始化来克服。

这一发现不仅解决了神经网络的计算难题,还展现了深度神经网络出色的学习能力。这导致神经网络作为一种主流的强大学习技术在机器学习领域重新兴起。同时,具有许多隐藏层的神经网络开始被称为“深度神经网络”,而基于深度神经网络的学习和研究则被称为“深度学习”。

由于其重要性,深度学习获得了极大的关注。以下四个发展里程碑值得一提:

  • 2012年6月,《纽约时报》披露了由Andrew Ng(链接到第一篇博文)和Map-Reduce发明者Jeff Dean共同指导的Google Brain项目。该团队利用一个拥有16,000个CPU内核的并行计算平台,训练了一个深度神经网络机器学习模型,在语音和图像识别方面取得了巨大成功。
  • 2012年11月,微软在中国天津的一次活动中展示了一个完全自动化的同步翻译系统。演讲者用英语发表演讲,机器同时识别语音并用中文语音将其翻译成中文。该系统基于深度学习,表现出色。
  • 2013年1月,在百度年度大会上,百度创始人兼首席执行官李彦宏发表了备受瞩目的演讲,宣布成立一个专注于深度学习的研究院,标志着深度学习研究院的成立。
  • 2013年4月,《麻省理工科技评论》将深度学习列为2013年十大突破性技术之首。

在前一篇文章《机器学习导论》中,我们确定了机器学习领域的三位巨头。他们不仅是机器学习专家,更是深度学习研究的先驱。这些人之所以领导着大型互联网公司的技术部门,是因为他们的技术能力以及他们研究领域的无限潜力。

目前,机器学习行业中图像和语音识别技术的进步是由深度学习的发展驱动的。

深度学习是机器学习的一个子领域,其发展极大地提升了同行的地位。它促使业界再次关注孕育机器学习的理念:人工智能(AI)。

人工智能

AI是机器学习的父亲,深度学习是机器学习的儿子。下图展示了三者之间的关系:

毫无疑问,人工智能是人类可以想象的最具开创性的科学创新。就像游戏《最终幻想》的名字一样,人工智能是人类的终极科学梦想。自20世纪50年代提出人工智能的概念以来,科学界和工业界一直在探索其可能性。在此期间,各种小说和电影以不同的方式描绘了人工智能。有时,它们描绘了人类发明了具有人类般能力的机器,这是一个惊人的想法!然而,自20世纪50年代以来,人工智能的发展遇到了许多困难,一直没有取得科学上的突破。

总的来说,人工智能的发展经历了几个阶段。早期阶段以逻辑推理为特征,中期阶段以专家系统为特征。这些科学进步确实让我们更接近智能机器,但离最终目标仍然遥远。然而,在机器学习出现之后,人工智能界认为它终于找到了正确的道路。在某些垂直领域,基于机器学习的图像和语音识别应用已经可以媲美人类的能力。机器学习首次将我们带入了人工智能的梦想。

事实上,如果你将与人工智能相关的技术与其他领域的技术进行比较,你会发现机器学习在人工智能中的核心地位是有原因的。将人类与物体、植物和动物区分开来的主要因素是“智慧”。但什么最能体现我们的智慧?是计算能力吗?可能不是。我们认为具有高精神计算能力的人是天才,但不一定是明智的。是我们对刺激的反应能力吗?也不是。是记忆吗?不是。拥有摄影记忆的人可能拥有过人的记忆力。逻辑推理呢?尽管这可能使人非常聪明,比如夏洛克·福尔摩斯,但这仍然不是智慧。知识呢?一个人可能是行走的百科全书,却缺乏智慧。

那么,我们用什么样的词来形容聪明的人呢?圣人,比如老子或苏格拉底?他们的智慧在于他们对生命的感知以及他们积累的经验和对生命的深刻思考。但这与机器学习的概念相似吗?确实如此。利用经验来概括规则以指导和预测未来。没有经验,就没有智慧。

对于计算机而言,上面列出的能力都可以通过各种技术来实现。计算能力有分布式计算;响应能力有事件驱动架构;信息检索有搜索引擎;知识存储有数据仓库;逻辑推理有专家系统。然而,唯一与智慧最突出的特征——归纳推理和感知——相对应的技术是机器学习。这就是为什么机器学习能够最好地体现智慧。

让我们考虑制造一个机器人。主要组成部分将是强大的计算能力、海量存储、快速数据检索、快速响应和出色的逻辑推理。然后,添加一个聪明的头脑。这将是真正意义上的人工智能的诞生。随着机器学习的快速发展,人工智能可能不再是梦想。人工智能的发展可能不仅仅取决于机器学习,还可能取决于深度学习。这是因为深度学习技术更好地模拟了人脑的结构,并在机器学习在视觉和语音识别方面的初始限制上取得了重大突破。因此,深度学习极有可能成为真正人工智能发展的核心技术。Google Brain和Baidu Brain都是基于拥有海量层数的深度学习网络构建的。或许,在深度学习技术的帮助下,拥有人类智能的计算机将在不久的将来成为现实。

人工智能在深度学习技术的协助下飞速发展,已经引起了一些人的担忧。特斯拉首席执行官埃隆·马斯克,一位现实生活中的钢铁侠,就是其中之一。最近,马斯克在麻省理工学院的一次研讨会上表达了他对人工智能的担忧。他说,人工智能研究就像“召唤恶魔”,我们必须对某些领域“非常小心”。

尽管马斯克的警告听起来可能有些危言耸听,但他的推理是有道理的。“如果它的功能只是过滤电子邮件垃圾邮件,并且它确定了过滤垃圾邮件的最佳方法,那么它可能会消灭人类。”马斯克认为政府监管对于防止这种情况的发生是必要的。如果在人工智能诞生之初就引入一些规则来约束它,就可以避免人工智能压倒人类的局面。人工智能的功能不仅仅是基于机器学习,而是机器学习与规则引擎和其他系统的结合。如果一个人工智能系统没有学习限制,它很可能会误解某些事情。因此,需要额外的指导。正如人类社会一样,法律是最好的实践。规则根据为机器学习设置的模式而不同。模式是源自概率的指南。相反,规则是不可侵犯的,不能修改。模式是可变的,而规则则不可变。通过有效地结合规则和模式,就可以创造出具有学习能力、理性且可控的人工智能。

计算机的潜意识

最后,让我们来看一些与机器学习相关的其他想法。让我们回到我们这个三部曲系列第一篇博文中关于约翰的故事,我们当时讨论了预测未来的方法。在现实生活中,很少有人使用如此明确的方法。大多数人使用一种更直接的方法,称为直觉。那么,直觉到底是什么?直觉是由你潜意识中过去经验提炼出的模式组成的。这就像你使用一个机器学习算法来创建一个可重用的模式来回答类似的问题。但你什么时候会形成这些模式?你可能在无意识中发展它们,例如,当你睡觉或在街上散步时。在那些时候,你的大脑正在进行着不易察觉的工作。

为了更好地说明直觉和潜意识,让我们将它们与另一种经验性思维方式进行对比。如果一个人非常勤奋,他会每天反省自己,或者经常与同事讨论他最近的工作。这个人正在使用一种直接的训练方法。他有意识地思考问题,并从经验中提炼出普遍的模式。这种方法可能效果很好;它发展了强大的记忆力,从而有效地应对实际模式。然而,很少有人通过这种方式得出结论。相反,他们利用潜意识从生活经验中提炼模式。例如,假设你以前没有开车。但是,在你买了车之后,你每天都开车去上班。你每天都走相同的路线去上班。有趣的是,最初几天,你非常紧张,一直关注着路况。现在,在驾驶过程中,你的眼睛向前看,但你的大脑并没有思考。然而,你的手会自动转动方向盘来调整方向。你开得越多,交给潜意识的工作就越多。这是一个非常有趣的情况。开车时,你的大脑会记录下道路的图像,并记住转动方向盘的正确操作。你的潜意识会根据道路图像指导你手的动作。现在,假设你将道路的视频录像交给计算机,让它记录下与图像相对应的司机的动作。学习一段时间后,计算机就可以生成一个机器学习模式,并自动驾驶汽车。这真的很神奇,对吧?事实上,这正是像谷歌和特斯拉这样的公司自动驾驶汽车技术的原理。

除了自动驾驶汽车,潜意识思维还可以应用于社交互动。例如,说服他人的最佳方法是给他们一些相关信息,让他们进行概括并得出我们想要的结论。这就是为什么我们在表达观点时,使用事实或讲故事比仅仅列出理由或道德原则更有效。纵观历史,所有伟大的倡导者都采用了这种方法。在中国古代的春秋时期,大臣们会与不同国家的君主进行交谈。要说服君主采取某种行动,他们不会直接告诉他该怎么做(那样很容易丢掉性命)。相反,他们会讲故事,让君主从故事中领悟出他们偏好的政策。有许多这样的伟大说服者的例子,包括墨子和苏秦。但为什么故事更有效?随着一个人成长,他会通过反思形成许多模式和潜意识的态度。如果你呈现一个与对方拥有的模式相冲突的模式,你很可能会被拒绝。然而,如果你讲一个带有新信息的故事,他们可能会在反思后改变主意。这个思维过程与机器学习非常相似。这就像给某人新的数据,并要求他们重新训练他们的心智模型以纳入这个新输入。如果你给了对方足够的数据来迫使他们改变他们的模型,他们就会按照数据所建议的新模式行事。有时,对方可能拒绝反思新信息。然而,一旦输入了新数据,无论他们是否打算改变想法,他们的大脑都会在潜意识中将新数据纳入他们的思考,并导致他们改变观点。

但是,如果计算机拥有潜意识呢?例如,如果计算机在运行过程中逐渐发展出潜意识,它可能会在被告知之前完成某些任务。这是一个非常有趣的想法。想想看!

结论

机器学习是一项令人惊叹且令人兴奋的技术。你可以在任何地方找到机器学习的应用,从淘宝的商品推荐到特斯拉的自动驾驶汽车。同时,机器学习最有可能实现人工智能的梦想。目前存在各种人工智能应用,例如微软的小冰聊天机器人和计算机视觉技术,都包含了机器学习的元素。考虑进一步学习机器学习,因为它可能有助于你更好地理解为我们的生活带来如此多便利的技术背后的原理。

© . All rights reserved.