65.9K
CodeProject 正在变化。 阅读更多。
Home

语义网探索指南 - 第一章:语义网

starIcon
emptyStarIcon
starIcon
emptyStarIconemptyStarIconemptyStarIcon

1.80/5 (5投票s)

2005年1月6日

34分钟阅读

viewsIcon

57238

语义网。

passin_cover150.jpg

作者 Thomas B. Passin
标题 语义网探索指南
出版社 Manning Publications Co.
出版日期 2004年6月
ISBN 1932394206
价格 39.95美元
页数 304

语义网

于是他来到了广场,也就是市集,那里有很多失业的哲学家——意思就是那些当时没有思考的哲学家。

思考——换句话说,哲学家可以告诉你无数关于思考不是什么的事情,但他们无法告诉你它是什么——这让他们很困扰!

—Severn Darden, 形而上学讲座

起初,并没有网络。网络最初是蒂姆·伯纳斯-李(Tim Berners-Lee)的一个概念,他在欧洲核子研究组织(CERN)工作。CERN的技术人员迫切需要共享他们许多计算机上的文档。伯纳斯-李之前已经构建了几个系统来实现这一点,并以此为背景,他构思了万维网。该设计具有相对简单的技术基础,这有助于技术落地并获得关键的集合。

伯纳斯-李希望任何人都能将信息放在计算机上,并使任何人都能在任何地方访问这些信息。他希望最终,机器也能使用网络上的信息。最终,他认为,这将实现强大而有效的人机协同合作。

我一直想象信息空间是每个人都可以即时、直观地访问的,不仅仅是浏览,而是创造……机器将能够分析网络上的所有数据——内容、链接以及人与计算机之间的交易。

……当[语义网]出现时,贸易、官僚机构和我们日常生活的日常机制将由机器与机器之间的通信来处理,而人类则负责提供灵感和直觉。(Berners- Lee 2000)

我认为这个愿景鼓舞人心,实现它的方式也引人入胜。语义网在某种程度上已经成为一个名人——《科学美国人》甚至发表了一篇关于它的文章(Berners-Lee, Hendler, and Lassila 2001)——尽管大多数人不知道它是什么,尽管语义网实际上还不存在。对于语义网应该是什么,存在着许多不同的想法,而非单一的。在本章中,我们将探讨关于语义网应该是什么的一系列想法。其中一些想法可能看起来很未来化或不切实际,但我们在接下来要探讨的各个领域都有大量的工作正在进行。

1.1 什么是语义网?

语义一词意味着意义,或者正如WordNet所定义的那样,“关于或与意义及其变化的研究有关”。对于语义网,语义表明网络上数据的含义可以被发现——不仅是人类,还有计算机。相比之下,今天网络上的大部分含义都是由阅读网页和超链接标签的人推断出来的,以及由编写专用软件来处理数据的其他人所推断出来的。语义网这个短语代表了一个愿景,在这个愿景中,计算机——软件——以及人类都可以找到、阅读、理解和使用万维网上的数据,以实现对用户的有益目标。

当然,我们已经在使用软件来完成网络上的事情,但区别在于我们使用的词语人们浏览网络,在网站上购物,通过搜索页面来回寻找,阅读超链接的标签,并决定遵循哪些链接。如果一个人能够启动一个自主进行的进程,或许在工作过程中不时地与人核对,那将更加高效且耗时更少。语义网的业务就是将这些功能广泛应用。

简而言之,语义网旨在使位于网络任何地方的数据都能被人类和机器访问和理解。这更像是一个愿景而不是一项技术。本书将探讨将这个愿景变为现实的技术。

正如你可能预料到的,关于这个普遍愿景包含的内容,有许多不同的想法。关于语义网的假定性质,存在着数量庞大且令人不知所措的不同想法,而这是要学的第一个教训:语义网是一个流动的、不断发展的、非正式定义的概念,而不是一个整合的、正在工作的系统。为了让你对这些想法有所体会,这里有一些关于语义网性质的代表性引述。

  • 机器可读数据视图——“语义网是一个愿景:即网络上的数据以一种机器不仅可以用于显示,还可以用于自动化、集成和跨各种应用程序重用数据的方式进行定义和链接。”(W3C 2003)
  • 智能代理视图——“语义网的目的是使当前的 Web 更具机器可读性,以便智能代理能够检索和操作相关信息。”(Cost et al 2001)
  • 分布式数据库视图——“语义网的概念是为数据做 HTML 对文本信息系统所做的事情:提供足够的灵活性来表示所有数据库和逻辑规则,并将它们链接在一起以增加巨大的价值。”(W3C 2000)“对语义网的简单描述是,它是在机器可处理数据方面所做的努力,就像万维网对人类可读文档所做的那样。也就是说,通过提供一种数据可以访问、链接和理解的通用方式来转换信息处理。将网络从一本大型超链接图书变成一个大型互联数据库。”(SWAD-E)
  • 自动化基础设施视图——“在最近的《科学美国人》文章中,伯纳斯-李认为语义网是基础设施而不是应用程序。我们完全同意。”(Tuttle et al 2001)“因此,真正的问题在于当前 Web 中缺乏一个简单的自动化框架……”(Garcia and Delgado 2001)
  • 人类仆人视图——“语义网的愿景是让计算机软件能够承担定位与我们需求相关的网络资源以及提取、整合和索引其中信息的重负。”(Cranefield 2001)“语义网是下一代网络的愿景,它使 Web 应用程序能够自动从不同来源收集 Web 文档,集成和处理信息,并与其他应用程序进行互操作,以便为人类执行复杂的任务。”(Anutariya et al 2001)
  • 改进的注释视图——“‘语义网’[Berners- Lee 2001] 的想法是通过机器可处理的形式表达的注释来丰富我们所知的(非正式)网络,并将它们链接在一起。”(Euzenat 2001)
  • 改进的搜索视图——“很快就可以通过内容而不是仅通过关键字来访问 Web 资源。”(Anutariya et al 2001)“主要目标是构建一个结构化的网站索引。”(Desmontils and Jacquin 2001)
  • Web 服务视图——“日益增长的是,语义网将不仅提供对收集有用信息的静态文档的访问,还将提供提供有用行为服务。”(Klein and Bernstein 2001)

    “语义网有望通过使软件代理能够自动化当前手动执行的流程,并引入当前不可行的应用程序来扩展现有 Web 的服务。”(Tallis, Goldman, and Balzer 2001)

很明显,这个语义网的概念涵盖了很多内容,也许没有两个人对它有完全相同的想法。尽管如此,有几个主题被反复提及。

让我们更仔细地看看这些主题。

1.1.1 索引和检索信息

每个人都在为如何查找信息而苦恼。图书馆有卡片目录,现在很多都有电子索引。搜索引擎是 Web 的重要组成部分。然而,每个人都曾在不知如何提问的情况下,因查找困难而感到沮丧和恼火。为了找到信息,语义网方法应该超越关键词和字母顺序索引,让用户能够按概念和类别进行搜索。

Web 部分带来了持续的主题,即信息是分散的——分布在整个 Web 上——而不是集中在少数存储库中。大多数使用概念识别来检索信息 Thus,系统维护自己的概念层次结构,并尝试在它们索引的文档中识别这些概念。有时,文档集合中的概念会自动识别,其成功程度各不相同。要进一步发展,就需要文档能够声明自己的词汇表和概念集,并识别它们的使用位置。

1.1.2 元数据

卡片目录和电子索引包含有关被编目和索引的作品的数据。关于其他数据的数据通常被称为元数据。例如,ISBN 号码和作者姓名是关于一部小说的元数据。描述数据库中数据的各种数据类型也属于元数据的范畴。甚至可能存在元元数据(关于元数据来源的陈述可以被视为关于元数据的元数据,或元元数据)。

从某种意义上说,元数据仍然是数据;区别在于数据的预期用途以及元数据的对象。正是元数据将被用于搜索和信息发现。注释也可以被视为元数据。

1.1.3 注释

在实体文档(如书籍)的世界里,人们在空白处写笔记和评论,他们划线和高亮段落,他们将新项目钉在报告上,他们将自己的想法添加到原始作者的想法中。像 XML 这样的标记语言应该能够添加此类注释,但今天,以一种简单的方式做到这一点,让其他人共享你的注释,并让你将注释转移到其他应用程序和计算机上,这很难。Wiki 风格的网站试图让许多人评论和修改网页,但这只涵盖了人们想要做的很小一部分。

由于注释应该是可共享的,并且不同类型的注释的含义应该被广泛理解,因此对广泛注释功能的支持通常被视为语义网的一部分。

1.1.4 一个庞大的可互操作数据库

如今,通过 Web 从数据库获取数据是很常见的。这些数据库通常是独立的,不易用作合并的数据源,并且大量数据存在于数据库之外。语义网愿景的这一部分看到了统一存储数据描述和检索的方法,从而允许将 Web 的很大一部分视为一个大型虚拟数据库。

考虑一位寻找棒球数据的体育研究员。有各种在线棒球数据库:美国职业棒球大联盟的网站只是其中之一。但如果我们的研究员想找到斯坦·穆西尔(Stan Musial)的比赛统计数据,他的职业生涯从 20 世纪 40 年代持续到 60 年代,她无法以相互兼容的格式获取整个时期的所有数据。至少对于棒球统计数据来说,对于大多数重要统计数据的定义有一些共同的约定,例如打击率总是以相同的方式计算——这比大多数独立的数据集要好。

如果 Web 能够作为可互操作的数据库运行,研究员就可以从所有重要的网站获取数据,并且研究员的软件将能够要么将所有数据一起显示,要么自动合并来自,例如,美国职业棒球大联盟网站和棒球年鉴的数据。

1.1.5 机器检索数据

愿景的这一部分侧重于自动获取数据。这意味着,一个软件程序在执行其任务时,会确定它需要什么数据,在哪里以及如何获取它,然后出去获取数据。以上一节中的棒球为例,假设我们的研究员必须找到正确的网页,加载它们,然后找出一种获取数据并组织它的方法。这很难做到,而且通常需要很长时间。在语义网下,数据格式及其访问方式将被描述,以便研究员的计算机能够自动获取和使用数据。

1.1.6 服务

服务是一种提供益处的行为。例子包括预订、安排日程、提供价格、下订单等等。考虑订购,例如,像鲜花或食物这样的易腐物品。一旦你选择了要购买的产品,你必须确保它的交付能够符合你的日程安排。价格、购买条件、交付选项和你的日程安排都可以被视为必须激活和协调的服务。在“语义网作为 Web 服务”的观点中,所有这些服务都会发布机器可读的数据,这将允许计算机为你完成所有激活和协调工作。

1.1.7 发现

为了使用服务,你(尤其是你的软件)必须能够找到它们,发现它们的作用,并了解如何调用它们。这就是服务发现的领域。最直接的方法是创建带有标准访问方法的服务目录。服务将以标准术语进行描述,并且关于如何访问它们以及可用信息的信息将以标准方式编码。

以实体图书馆为例。美国大多数图书馆使用杜威十进制分类法或国会图书馆的方法来对图书进行分类。使用卡片目录或其电子版本后,人们熟悉了分类,并学会了如何在书架上找到书籍。在这里,标准访问方法是熟悉的分类系统和图书馆中书籍的物理排列。

一种更高级的方法是根据所需的服务发出发现请求,并且候选服务以一种方式描述它们的能力,使得潜在用户能够推断出它们的能力并启动对话以查找任何缺失或不确定的信息。回到图书馆的例子,这就像请一位经验丰富的研究图书管理员告诉你应该查阅哪些参考书以及如何理解其中的信息。

1.1.8 智能代理

代理是代表你行事的人或物。软件代理将以某种程度的自主方式行事,与其他软件代理(可能是专门化的)进行通信,为你发现服务、产品或信息。例如,其中一个专业代理可能知道如何购买机票并进行预订。另一个代理将执行所需的服务,将结果返回给你的代理,后者将通知你结果。很明显,一个交互式代理网络必须能够使用既定的词汇来描述其目标,发现服务和信息资源,并使用前面各节所述的许多功能。

1.2 两个语义网场景

为了让你对这些领域可能如何互动以及语义网如何提供巨大价值有所体会,这里有两个在“语义网的研究挑战与前景”研讨会上开发的场景。1 两个场景都说明了所谓的个人服务。当然,对于许多其他领域,例如企业对企业交易,也可以构建类似的场景。请注意,语言直接取自报告,未纠正语法和拼写错误。

场景 1:研究助理

克拉拉在檀香山逗留期间,遇到了一些有趣的人,并与他们交换了 vCard。当晚上该休息时,她看了看她的数字助手,总结了当天的活动,并回忆了即将到来的活动(尤其是她第二天的关键演讲)。助手弹出一个带有 vCard 链接的便笺,上面写着:“这个人的资料似乎符合比尔放在我们内部网上的职位广告。我能通知比尔的助理吗?”

克拉拉点击了“解释!”按钮。“我使用了他的公司目录来查找他增强了 DAML2 的简历:他具备统计学家的必备技能,曾领导蒙大拿大学数据库系的 [原文如此] 数据挖掘小组,符合要求的研究员曾从事机器学习工作。”然后克拉拉点击了“证据!”按钮。助手开始显示:“我核实了他与蒙大拿大学的隶属关系,他们在网页中多次引用了他:相对可信;我从出版商的 DAML 来源核实了他的出版记录,并向比尔的助理询问了期刊的评级:高度可信。更多细节?”

克拉拉已经受够了,让她的助理通知了比尔的。


1 该研讨会由欧洲信息与数学联盟(ERCIM)为欧盟未来新兴技术计划(EU-FET)和美国国家科学基金会(NSF)组织。它于 2001 年 10 月在法国索菲亚·安蒂波利斯举行。

2 DARPA 代理标记语言;见第七章。

场景 2:协商日期

比尔和彼得的助理在 ISWC3 前在巴黎安排了一次会议。由于彼得的助理知道他是素食者,他们避免了失礼。比尔对彼得能流利使用法语感到惊讶(他的助理没有被授权透露他娶了一个魁北克女人)。比尔和彼得举行了一次富有成效的会议,比尔肯定能在彼得返回美国之前向他发送一份报价。

晚餐前,彼得调查了一个困扰他的问题:比尔使用了“服务”一词,但方式有些不同寻常。他写道:“Acme computing 将为 semanticweb.org 运行信任评级服务”(来自比尔的一句话)。他的助理没有发现问题,于是他点击了:“服务”,助理显示:“服务在 {数据库} 中等同于:基础设施”。彼得要求“元信息”,这显示了“今天更新,通过与比尔的助理协商”。

彼得再次要求“论据!”:“服务在 {数据库} 中与服务在 {Web} 中冲突”。“解释!”“在操作系统和数据库中,服务一词涵盖了容错、缓存、安全等功能,这些功能我们习惯于将其置于基础设施中。更多证据?”彼得很高兴不用搜索整个 Web 来解释这一点。两位助理发现了问题并默默地协商了一个解决方案。他还有一些时间才去城市剧院。他的助理奇迹般地为他预订了一个席位,观看安妮-特蕾莎·德·克尔马克的剧团在巴黎的一次罕见演出。它不得不诉诸于一个它通过一个与舞蹈相关的共同兴趣助理池找到的特殊 Web 服务。


3 可能是国际语义网会议。

在这些场景中,你可以看到同时运行的不少语义网领域。软件代理(数字助理)正在发现元数据和信息并对其进行处理。逻辑推理不仅用于进行推理,还用于向人类用户进行解释。信任和可靠性的评估是通过交互信息网络推断出来的。我们看到了 Web 服务的发现。这一切看起来都很合理,而且很有用。

1.2.1 语义网能这样工作吗?

要使语义网能够按前面场景中所设想的那样工作,需要开发和具备哪些条件?关键在于数据的广泛交换以及标记、指示或描述数据内容、结构、检索方式和含义的方法。这些领域中的每一个本身都是一项艰巨的任务。但语义网也将是一项社会学发展。公司必须在通常会竞争的领域进行合作;学术研究必须转化为实际系统;个人必须发现他们可以如何贡献;并且必须解决营利与免费、封闭系统与开放系统以及信任等问题。

这项任务比构建最初的万维网要大得多。当时,很少有人意识到 Web 将会带来多少新的功能。如今,一些基本基础设施已经就位。有万维网联盟(W3C)这样的组织,其宗旨是开发和推广对整个互联网至关重要的标准,包括语义网。因此,这项任务虽然更大,但起点却更先进。

这些愿景能否实现?对此意见不一——我认为其中许多将会实现(有些已经开始运作),并且将对使用 Web 的人们的生活产生真正的改变。

1.3 语义网的基础

万维网具有某些使其区别于早期超链接实验的设计特征。这些特征将在语义网的设计中发挥重要作用。Web 并不是整个互联网,并且有可能通过万维网以外的许多其他方式来开发语义网的许多功能。但由于 Web 的普及程度如此之高,并且其基本操作相对简单,因此大多数正在考虑的语义网技术都基于当前的 Web,有时还会进行扩展。然而,Web 服务(第八章)和代理(第九章)可能会脱离当前 Web 的架构,正如你将看到的。4

Web 是围绕资源、这些资源的标准化寻址(统一资源定位符和统一资源标识符)以及一套小而普遍理解的命令来设计的。它还设计成在非常庞大而复杂的网络上以分散的方式运行。让我们看看这些设计特征。


4 我部分引用了所谓的 REST(表示状态转移)架构,以及关于当前基于 SOAP 的 Web 服务(如果不使用此模型)是否会比使用此模型的 Web 更适合的争论。

1.3.1 资源

Web 地址、检索、链接和修改资源。资源旨在表示可以引用的任何想法。通常,我们将这些资源视为有形的数据包(文档或页面),但资源的概念在两个方面更为通用。首先,资源可以随时间变化,但仍被视为同一资源,由同一统一资源标识符(URI)寻址。因此,手稿的一系列草稿可以由同一 URI 寻址。或者,URI 可以表示同一文档的一个特定、不变的版本。资源的概念足够灵活,可以同时包含可变资源和固定资源。

严格来说,资源本身不会被检索,只会检索资源的表示。对于某些协议,如文件传输协议(FTP),表示通常是文件的副本。对于其他协议,如 HTTP,表示可能是文件副本,也可能不是。资源甚至可以由不同的形式表示——PDF 文件、HTML 页面、语音录音等等。

其次,也许更难理解的是,资源可以是尚未存在、并且可能永远不会存在的东西。资源可以是一个概念或对真实或虚构人物的引用——一些无法通过网络寻址和传输的东西,但可以被谈论、思考。对于语义网来说,这样的资源可以通过 URI 来引用或标识。5


5 例如,RFC 1737,“统一资源名称的功能要求”(URI 的一个子集)指出,“URN 的目的或功能是提供一个全局唯一、持久的标识符,用于识别、访问资源的特性或访问资源本身。”(强调已添加。)

1.3.2 标准化寻址

Web 上的所有资源都由 URI 引用。最熟悉的 URI 是那些引用可寻址和可检索的资源的 URI;这些称为 URL,代表统一资源定位符。这些 URI 具有统一的结构,可以引用除 HTTP 以外的其他协议(如 FTP)的使用,并且易于键入和复制。它们可以插入到超链接中,从而可以轻松地链接到任何可寻址的信息。

1.3.3 小集合的命令

HTTP 协议(用于在 Web 上发送消息的协议)使用一小组命令。这些命令被 Web 服务器、客户端(如浏览器)以及缓存等中间组件普遍理解——缓存可以通过存储先前发送的文档副本来减少网络流量。通过这一有限的命令集,可以清楚地知道服务器和网络被请求什么,并且可以了解服务器如何选择执行请求。此模型不为发送或请求的信息提供安全性或个人隐私;但是,由于它简单且易于理解,该模型便于提供额外的安全层。6

但是,某些架构使用复杂的消息或需要限制消息内容的可见性,它们采用比基本 HTTP 更复杂的方法。可以使用其他 Internet 协议,也可以通过 HTTP 携带额外的消息层(如 SOAP,其名称不再代表任何东西)。关于 Web——区别于包含远不止万维网的 Internet——应该使用哪些方法,以及语义网架构是否应仅限于当前 Web 的更简单架构,存在一些争议。


6 关于 Web 模型是否比远程过程调用(RPC)系统等其他网络架构更好地支持安全规定,存在一些争议。

1.3.4 可伸缩性和大型网络

Web 必须在非常大的网络上运行,拥有大量的网站,并且随着网络规模的增加而继续工作。它通过两个主要设计特征来实现这一点。第一,Web 是分散的。如果你在网络上有一台计算机,你就可以在上面运行一个 Web 服务器;如果你有一个服务器,你就可以在那里添加资源,而无需在任何其他地方注册它们。

第二,Web 上的每个事务(即请求和随后的响应)都包含处理请求所需的所有信息。服务器不需要存储从一个请求到另一个请求的数据。但是,Web 的许多实际用途确实需要将某些数据保存一段时间。如果你预订一张票,然后在另一页上订购,系统必须存储你的机票预订,并能够将其与你的购买请求连接起来。由于每个 Web 事务都与其他事务独立,因此很难安排在连续事务中维护数据。独立交互使得一个大型、分散的系统成为可能,在这种系统中,响应可以被缓存以允许更快的响应并减少网络流量。

维护某些事务历史记录的数据有时被称为状态,例如“系统状态”。Web 事务是无状态的。7 如果存在跨多个交互存储信息的业务需求,服务器必须提供特殊安排来实现。


7 当 cookie 存储在你的计算机上时,cookie 会存储一些状态信息。不幸的是,这种状态与 Web 模型不太匹配,因此有时会在浏览器、服务器和用户之间造成混淆。

1.3.5 开放性、完整性和一致性

Web 是开放的,这意味着可以自由地添加网站和 Web 资源,而无需中央控制。将域名分配给服务器确实需要一些中央机构来避免重复名称,8 但这绝不会限制你建立 Web 服务器及其提供信息的能力。

Web 是不完整的,这意味着无法保证每个链接都会起作用,或者所有可能的信息都可用。它可能是不一致的:任何人在网页上都可以说任何话,因此不同的网页很容易相互矛盾。Web 上的信息永远不会完全一致,而且它也在不断变化。想想你上次访问后改变了,甚至已经不存在的网页。希望从 Web 数据中得出逻辑结论的软件必须在面对所有这些变化、潜在的不一致和不完整性时,以合理的可靠性来运行。


8 域名是服务器名称的通用部分——通常,许多服务器共享一个域名。例如,在 URL www.cnn.com 中,域名是 cnn.com。

1.3.6 Web 和语义网

为了使语义网能够遵循当前 Web 模型,它应该利用当前万维网的关键方面。

  • 使用 URI 风格的寻址
  • 具有可寻址和不可寻址资源的观念(不可寻址资源是指可以被谈论——如汽车或概念——但不能通过通信网络检索的东西)
  • 使用具有一小组通用命令的协议(可能包括当前命令集的扩展)
  • 维护很少或最好不维护状态信息
  • 尽可能分散化
  • 大规模运行
  • 允许本地缓存信息以加快访问速度并减少网络负载
  • 能够在链接丢失、信息不完整和不一致的情况下运行。

服务和代理是否会被设计成——或者能否——遵循这些规定,这是一个悬而未决的问题。

1.4 语义网层饼

W3C 一直是 Web 技术开发的领导者。该组织由蒂姆·伯纳斯-李(Tim Berners-Lee)领导,他并没有满足于他在 Web 方面早期的成就,他还一直推动语义网的发展。许多看似基础的技术,如 XML 和 RDF,都是由 W3C 开发的。因此,W3C 对语义网演进的看法值得一看。

W3C 网站上的语义网页面包含一个标为架构的图。这个图有时被称为“语义网层饼”,已被广泛转载,我们的版本图示在图 1.1 中。各层的描述如下:

图 1.1 根据 Tim Berners-Lee 和 W3C 的观点,语义网的分层技术。每一层都建立在——并且需要——其下方的层。W3C 已经开发或正在开发除顶层两层之外的所有层的标准和建议,W3C 关于数字签名和管理加密密钥的建议也将构成信任层的重要组成部分。

  • XML——可扩展标记语言。自 1998 年以来,该语言框架一直用于定义几乎所有用于在 Web 上交换数据的新语言。
  • XMLSchema——一种用于定义特定 XML 语言结构的语言。
  • RDF——资源描述框架。一种灵活的语言,能够描述各种信息和元数据。RDF 在第二章中介绍。主题图,一个非 W3C 的替代标准,在第三章中讨论。
  • RDFSchema——一个提供基本词汇表来供特定 RDF 应用语言使用的框架。RDF Schema 在第七章中介绍。
  • 本体——用于定义词汇表和确定词语在特定词汇表上下文中的用法。RDF Schema 是构建本体的框架,并且被许多更高级的本体框架使用。OWL 是专为语义网设计的本体语言。第七章讨论本体,包括 OWL。
  • 逻辑与证明——逻辑推理用于建立数据集的一致性和正确性,并推断出未明确说明但由已知数据集要求或与之一致的结论。证明会追溯或解释逻辑推理的步骤。第六章涵盖了与语义网中的逻辑相关的一些问题。
  • 信任——提供身份认证和数据、服务、代理可信度证据的一种方式。第十章讨论与语义网相关的信任问题。

每一层都被视为建立在下方一层的基础上。在底层,大多数数据预计会以 XML 格式创建。每一层都越来越专业化,并且往往比其下层更复杂。较低层不依赖于任何较高层。因此,各层可以相对独立地开发和投入使用。XML 已经就位,XML Schema 最近也已标准化。RDF 已作为 W3C 推荐发布9(并刚刚发布了更新版本)。其他层正在开发中,它们的形态和方向根据它们在层饼中的高度,越来越不确定。

你应该意识到,这个图代表了 W3C 的观点,并且图中所示的大多数技术都是 W3C 开发或认可的。对于某些层存在潜在的替代方案。例如,存在 XML 文档的替代模式,并且有相当多的努力在开发本体系统。

如果你注意到没有标为Web 服务的层,那是因为服务不适合这个层饼。这类技术利用了几个层,例如 XML 和 XML Schema——也许未来还会使用 RDF 和本体。本书还讨论了未出现在层饼图中的其他技术和主题。


9 W3C 发布了 HTML(通用超文本标记语言)等技术标准。它称它们为推荐,尽管许多人非正式地称它们为标准规范。在 W3C 流程中,一个文档会经历一系列草稿阶段,从工作草案候选推荐,然后才被发布为批准的推荐。

1.4.1 基础

Web 包含大量信息,其中大部分是 HTML 格式——用于描述普通网页内容的语言。这是有效的,因为 HTML 被广泛理解(通过浏览器),而且 HTML 对页面创建者来说也很容易理解。HTML 确实描述了它包含的信息,但它只是根据适用于大多数普通文档的通用单元——段落、标题、图像、表格等等——来描述的。一个 HTML 页面无法标记一个页面片段来说,“这是来自数据库‘X’的员工信息;”,它只能(用计算机可以理解的术语)说,“这是一个表格,这里是它的行和列”。

一个页面的 HTML 描述了这些通用的文档单元及其顺序,而显示它们则取决于浏览器。你可以给浏览器一些建议,它们通常会尽力遵守。当信息供人们阅读时,这种方法取得了巨大的成功。

使用 XML,你可以以其他方式描述信息的结构,而不仅仅是根据通用的文档单元。你可以选择最适合特定信息和预期用途的结构类型。因此,XML 被视为语义网的基础层。

XML Schema 层提供了为特定 XML 文档指定结构和数据类型的能力。XML 和 XML Schema 层不包含在本书中,因为它们是通用技术,与语义网没有特殊关系。

1.4.2 属性和关系

对浏览器来说,HTML 页面的“含义”在于对如何显示页面上出现的各种通用单元的广泛共享理解。对于通用结构,同样需要一种方法来指示不同结构单元的含义,并且这也应该被广泛共享。这就是 RDF 的作用。然而,“含义”这个概念很复杂,有很多层面,而 RDF 只处理其中两个层面:为事物分配属性以及将一个事物与另一个事物关联起来。

RDF Schema 层描述了这些属性——它们是什么,可以分配给哪些资源,等等。本体层更进一步:它不仅描述了可以使用的属性和术语,还可以描述它们之间的关系。

这些层用于描述或表示知识。尽管层饼的 W3C 版本只显示了 RDF 和 RDF Schema,但本书还讨论了表示知识的另一个候选者:主题图。

1.4.3 分析、验证和信任

一旦建立了资源、术语和属性之间的关系,就可以分析 RDF 所表达的陈述是否一致,并进行推理。通过这种方式,可以发现未明确说明的事实,并且(有时)可以调和不一致的事实。逻辑与证明层提供了这些功能。

当我购买一本书并提供我的信用卡号时,书商想知道这张卡是不是我的。如果我本人在场,我可以出示我的驾照来证明我的身份。本质上,我是在说:“如果你不相信我,那就相信发证机关”。只要卖家相信身份卡不是伪造的,这是可以接受的。卖家可能会通过卡片的视觉外观、照片与我的面部匹配程度、卡片上的年龄与我显现的年龄的吻合程度,以及许多其他线索来评估卡片的有效性。在这里,你看到了几个原则在起作用:诉诸权威、该权威的可信度、基于一系列事实的有效性推断,以及对这些事实的信念。

当我在线购买同一本书时,卖家同样需要确保信用卡有效并且我已获授权使用它。我需要确保网页确实属于书商,而不是一个想要访问我银行卡号的罪犯。当软件程序处理从 Web 获取的数据时,它们面临着同样的问题。信任层将试图处理这些问题。你可以看到它将如何利用所有其他层。信任机制必须调用逻辑与证明层来分析声明、进行推理和得出结论。逻辑与证明层需要了解术语和属性之间的关系,以及它们是否被正确使用,这是本体层的工作。本体层需要使用 RDF 和 XML Schema 层定义和创建的数据结构。这些依赖关系也可以从另一个方向来看:RDF 层在分配其属性时使用 RDF Schema 和本体,而 XML 层为 RDF 信息提供了可移植的数据结构。

这种层饼结构听起来很复杂,事实也确实如此。但并非所有东西都必须到位才能完成任何事情。重要的是要获得相关部分的广泛接受。Web 最初就是这样传播开来的。

1.5 总结

语义网并非一项已成定论、整合的技术。它是一种关于计算机、人类和 Web 如何比现在更有效地协同工作的概念。因为它具有前瞻性,所以没有唯一的定义。事实上,在本章前面,你已经看到了一系列惊人的观点,例如机器可读数据视图、智能代理视图等等。然而,这些重叠的观点有一些共同之处,本书将探讨这些共同之处。

基本上,所有观点都假设计算机将能够读取和使用当今主要供人类访问的数据。所有观点都认为计算机将能够使用这些数据来执行有益于人类的任务。在这个广泛的范围内,某些主题会反复出现,正如我们在本章中所讨论的那样。本书的其余部分将涵盖这些与语义网相关的每个主题。

当前 Web 是我们所拥有的一个非常庞大、分布式、松散连接、不一致的系统的唯一成功案例。因此,语义网应该利用当前 Web 的优势,特别是使其取得成功的关键设计模式,似乎是合理的。事实上,它应该是当前 Web 的一种扩展。

© . All rights reserved.