语义网探索指南 - 第 5 章:搜索






4.50/5 (8投票s)
2005年1月6日
38分钟阅读

51709
语义网与搜索。
|
|
搜索
“这样一来,鸽子就有机会补充说:‘我知道你在找蛋,这一点我再清楚不过了;你是个小女孩还是条蛇,对我又有什么关系呢?’”
——刘易斯·卡罗尔,《爱丽丝梦游仙境》
任何在网上搜索特定信息的人都会知道其中的挫败感。有时候事情进展顺利,但有时候,不相关的信息会淹没我们真正寻找的内容。以下是根据我的经验的两个典型例子。
首先,我想找到Python XML项目的首页。我在Google搜索页面输入“python xml”。不到一秒钟,我就得到了10页的搜索结果,但很快就发现第三个条目就是我想要的。如果我记得这个项目也叫PyXML,我仍然得到10页搜索结果,但现在第一个就是我想要的页面。
接下来,我需要为我旧炉子找一个替换的炉灶加热线圈,并且我想在我住的区域附近找到一家商店。因为我正在写这一章,我决定尝试在线搜索。我按照看到的、来自一些没用的搜索结果中的词语,依次输入了以下搜索短语:
- 炉头JennAir
- 炉头JennAir更换
- 炉头JennAir新
- 炉头JennAir经销商
- JennAir经销商VA
- JennAir经销商弗吉尼亚
最后一个短语给出了一些搜索结果——只有六个——但它们也都没用。它们包括一个提供农业企业出售的网站。
我知道我在浏览器中保存了一个书签,指向一家真正销售我所需替换零件的商店。我找到书签,并将其URL输入搜索引擎。我得到一个页面,其中包含搜索引擎的该URL的类别以及描述。这个类别似乎说得通:
购物 > 家居与花园 > ... > 家用电器 > 零件
它也是一个可点击的超链接,带我到一个包含14家在线家电经销商的页面。最后,添加炉灶品牌后,我得到了一个包含七家经销商的列表,他们似乎经营该品牌。然而,他们都不是实际的商店,更不用说弗吉尼亚的商店了,而且列表中甚至不包含我尝试过的URL的原始商店。后来,我发现,如果我一开始就输入“JennAir”,返回的页面会显示该查询的类别。这会有帮助,但它是错误的——该网站更改了其类别,但未能更新数据库的该部分。
这两种经历恰恰体现了当今网络搜索的优点和缺点。搜索引擎已经索引了大量的网页,但是用户无法很好地知道哪些搜索词有成功的机会。而且每个用户都有一个不同且通常不精确的类别和术语的心理层次结构,而这些可能与搜索引擎提供的任何内容都不匹配。
5.1 网络搜索
毫无疑问,本书的每一位读者都进行过搜索。在互联网上,有Google和Altavista等搜索引擎。图书馆有卡片目录和电子搜索终端,书籍有索引。这些也是各种搜索辅助工具。本节将探讨当前的互联网搜索,以期为语义网的出现提出重要的改进建议。
5.1.1 搜索的种类
信息搜索行为可以有多种分类方式。一种是按位置分类——你可以搜索自己的计算机、公司的内网或互联网。另一种分类与查询类型有关。这里的区别在于即席搜索(例如,当你输入“black Labrador kennel”到搜索引擎时进行的那种搜索)和结构化搜索(你使用搜索网站设置的预定义类别)。图5.1展示了Yahoo的一些预定义类别。
另一种区别可以区分封闭系统(如稳定但结构相似的参考文档集合)和包含大量不同种类信息的开放系统。图书馆科学中有许多关于搜索信息种类的专门区分:库存控制、确定文档的来源(其来源或起源)、定位相似项、查找相似集(如同一作品的不同版本)等等。
在本书中,我们最感兴趣的是可以通过互联网找到的信息,并且最好能同时供人类和计算机使用。这涵盖了相当广泛的范围。
图5.1 Yahoo搜索网站提供的预定义类别示例。选择任何一个类别都会显示一个更专业类别的列表。当类别与人们想到的词语匹配时,这类类别效果很好。当类别不匹配时,很难决定选择哪些。
5.1.2 如此接近,却又如此遥远
如今,互联网搜索通常由人们在搜索引擎网页的输入框中键入词语来完成。一些人还运行搜索引擎程序,这些程序可以索引他们的硬盘驱动器,并按名称或文本短语查找文件。无论哪种方式,结果都以文本列表的形式返回,供人阅读,有时还包含指向其他网页的超链接。
搜索引擎也开始提供接口,以便程序可以请求和接收信息;例如,Google就提供这样的服务。然而,目前对于请求的形式或响应的形式都没有标准存在。
正如本章开头的第二个场景所例证的,互联网用户普遍有过试图猜测正确的词语以获得有用结果的经历。有些网站不提供任何指导;有些网站,如Yahoo和Open Directory,有一个你可以像索引一样导航的术语层次结构;还有些网站通过显示要添加到搜索中的附加术语来主动帮助聚焦你的搜索,例如KartOO提供的令人惊叹的创意图形界面。1
无论你使用哪个搜索网站,都可能很难获得有用的结果。要么你得到太多命中,要么没有一个结果给你想要的信息,要么你得到的是一般信息而你想要的是具体信息。最好的搜索引擎比低级网站更能发现有用结果,但即使是最好的网站,结果的质量也是不稳定的。
在程序中使用搜索结果也可能很困难。一个想要在多家不同书店查找书籍的程序可能会从每家书店接收数据;这些数据可以被人阅读,但很难自动组合和处理。网站使用不同的、不兼容的数据格式,这些格式不适合机器处理。幸运的是,随着搜索引擎开始以XML格式返回数据,这种情况正在改善。
如今的搜索引擎有时非常有效,以至于进行搜索比在保存的书签列表中查找网站更快更容易。当我计划阿拉斯加度假时,我发现我可以输入“alaska railroad schedule”到Google来更容易地获取火车时刻表,而不是导航到浏览器中保存的书签。2在我看来,对于一个大型且遥远的搜索引擎来说,比我在书签列表中查找参考信息更快,这是一个惊人的成就,尽管存在当前网络搜索的局限性。
1 尝试在KartOO上搜索炉灶零件,结果是少量命中,基本上是常规搜索引擎的顶部命中。但巧妙的图形显示使得很容易看到哪些命中可能有用。事实上,其中一个命中通过一个中间链接指向制造商的页面,我从中获得了我家附近经销商的列表。
2 自从我开始使用附录中讨论的书签应用程序以来,我通常能比使用Google更快地找到我的书签。
5.1.3 幕后
互联网必须是搜索引擎可以想象的最困难的环境。它庞大、增长迅速、不断变化且不一致,并且包含各种类型和结构的文档。这些文档可能相互矛盾,而且没有中央注册表列出所有文档。当然,这些事实也正是互联网的优势和丰富性所在,它如此有趣和充满活力的原因。
互联网搜索网站幕后所做的工作令人惊叹。它们处理如此多的信息源——数百万甚至数亿份文档——并且通常在几秒钟内给出结果。
- 搜索引擎必须查找要索引的网站和文档(候选者数量巨大)。
- 搜索引擎必须以多种方式分析每个页面和每个网站,以应对用户将提交的未知查询。必须分析链接页面之间的关系,并制定处理这些链接页面的策略。许多网站会缓存(即保存副本)它们索引的页面,以防原始页面变得不可用。搜索引擎必须分析各种文档类型的内容,从高度结构化的到几乎非结构化的,从非正式的到高度技术性的。
- 一旦信息被存储和索引以便以后检索,搜索引擎就必须分析查询,在其庞大的数据库中找到候选结果,从这些候选结果中选择最佳结果,可能将它们分组到有意义的部门,按相关性排序,并在极短的时间内将其呈现给用户。
在本章后面,我们将讨论语义网技术如何帮助改进这个过程,以及搜索结果如何才能更有利于计算机消费。
意外发现: 惊喜作为目标 |
搜索网站和用户非常重视返回尽可能满足原始请求的结果,即使该请求可能很模糊。但人们发现一些他们并未寻找且未预料到的事物可能是有价值的。在互联网时代之前,当我们花时间在图书馆(有些人至今仍在)时,经常会偶然发现一些极其有趣但以前未知的东西。(我本人因此获得了两项新爱好,这要归功于俄亥俄州Shaker Heights卓越的图书馆系统。) 我们不希望为了效率和聚焦结果而失去这些机会。这是我没有看到讨论过的一个主题,并且不应该被忽略。在我准备写这一章时,我偶然通过AltaVista搜索引擎发现了一个意想不到且有趣的网站:Political Impersonator Speakers Bureau site,其中包含模仿总统和其他政治家的喜剧演员的链接。我很高兴找到了它。 |
5.2 搜索策略
在本节中,我们将探讨搜索中涉及的一些问题。这不是一个全面详细的讨论,但它试图勾勒出未来语义网的潜在贡献。在本文撰写之时,对于索引、编目、分析或指定搜索引擎的质量和性能,以及指定请求和响应消息格式,都没有标准存在。因此,我们无法提供语义网定向标准技术的具体技术示例——尽管许多研究论文都概述了实验方法。3当然,我们期望那些熟悉的——RDF、主题图和OWL(参见第2、3和7章)——将扮演重要角色。主题图可用于组织和构建数据,而OWL可用于定义类别及其之间的关系。
3 许多研究论文讨论了搜索——远超本书所能报道的范围。本章仅提及一些目前或近期可能有用,并且明显涉及语义网技术的努力。
5.2.1 关键词
索引网络最直接的方法是搜索网络资源的关键词列表并存储它们的位置。当用户输入一个或多个搜索词时,引擎会尝试在索引中查找它们;如果找不到,它会尝试查找它包含的等效词。返回包含关键词的页面。
除了不包含任何关键词的页面可能不会被返回之外,还有一个自然语言问题。在人们日常使用的语言中,词语可以有许多不同的词义,或意义类别。例如,根据WordNet词汇字典(WordNet),当用作名词时,“tool”这个词有四个词义,用作动词时还有四个(例如,“work with a tool”和“joyride”)。其中一些词义密切相关,而另一些则不。为了有效使用关键词,搜索引擎必须在分析页面和分析查询时都弄清楚正确的词义。这就进入了自然语言处理(NLP)的困难领域。此外,搜索引擎通常在分析查询时没有上下文;但在自然语言中,词语的意思常常根据上下文而不同(多义性),这可能导致歧义。
另一个问题是,用户通常不会想到搜索系统使用的与他们相同的关键词。关键词虽然有用,但不足以支持网络上发生的搜索活动。
5.2.2 词汇本体
经典的AI导向(人工智能)观点认为,通过将网络资源中的词语和概念分类到由合适的词汇本体定义的类别中,可以捕获资源的基本内容并将其与类别背后的概念进行匹配。如果不行,至少可以将查询中使用的术语自动与词汇本体中的已知术语关联起来。或者,可以将词汇本体中的术语呈现给用户,由用户选择一个或多个用于查询。如果网页被标记了正确的信息,这种方法将更可行。
这里有两个问题:对网络文档的分析和查询的创建。对于查询的创建,使用词汇本体中的术语的有效性并不像你想象的那么高。在词汇量小且控制良好的相对较小的封闭系统中,它可能很有用,但互联网上的信息查询非常不同。
想查找信息的人不太可能与系统用于分类的工作词汇本体相同。换句话说,人们对不同的词语和概念有不同的联想,一个人对概念的层次结构可能不适合另一个人。此外,词语的使用取决于查询的上下文和搜索者的期望。一个真实、有用的词汇本体可能太大,用户无法轻松浏览以找到要使用的正确术语。找到合适的术语本身可能就成了一项搜索练习,正如我在试图查找炉子加热线圈时所发现的那样。我从hob开始,因为这是餐饮行业使用的术语,然后换成burner,最后是appliance和jennair distributor。设计一个好的用户界面,让用户能够选择词汇本体中的术语而不打断他们的思路,也是很困难的。
无论出于何种原因,迄今为止,使用词汇本体在帮助用户构建产生良好结果的查询方面并不特别有效。请注意,这并不意味着术语分类在分析文档或查询时无用,也不意味着分类系统无法帮助个人制定查询。尽管如此,基于词汇本体的查询似乎不是答案的主要部分。这就像在说,一本书中的好索引对于查找特定材料非常宝贵;但是,对于一本由许多不同作者撰写的、关于许多不同主题的大书来说,找到你想要的东西要困难得多,无论是否有索引。
另一方面,一种计算机通过使用词汇本体将查询术语与知识库关联起来,从而默默地增强查询的方法可能会更成功(参见5.2.7节)。
5.2.3 元数据
关于任何文档或资源,有几种类型的元数据。有明确包含在作品中的元数据,如作者、关于其内容的关键信息和出版商。其他元数据可能与作品分开发布,例如在评论或注释中(参见第4章了解更多关于注释的信息)。在某些情况下,可能可以推断出未明确说明的元数据。
如今,大多数文档和网页包含很少的元数据。人们普遍认为,语义网最重要的影响之一将是大多数资源将以几种标准格式进行元数据标记。毫无疑问,更多的页面将被标记元数据,但几乎可以肯定的是,网络上的大多数资源将继续缺乏标记的元数据。大多数网页将不包含这样的标记:“这是一个重要概念”或“此页面使用了XYZ词汇本体中的术语”。
因此,搜索引擎需要分析资源以推断或提取它们可能包含的隐式和显式元数据,并且即使没有文档中的标记部分也能做到这一点。其中一些已经发生,并且有大量的研究集中在此类分析上。两种方法(也可以结合使用)在研究中经常出现:分析文档的语言(下一节更多)和分析常见的结构模式以识别具有特定意义的部分。通常,这些部分是连续的句子、带有链接的段落,或者一系列具有某些类型链接和术语的连续段落。甚至网页的视觉布局也被证明可以为识别重要概念和链接提供有用的信息。识别具有战略性超链接的章节有时与第5.2.6节讨论的社交分析相结合。社交分析是Google方法的一个关键特征。
5.2.4 语义分析
所有网络资源都围绕一个或多个主题,并包含一定数量的概念。大多数时候,主题和概念是用自然语言表达的。如果能够发现这些概念并将其与查询中的概念进行匹配,应该可以更好地检索所需信息。发现过程可能会根据词汇本体进行分类(如5.2.2节所述)。
将来,一些资源的主要概念将使用像资源描述框架(RDF)这样的标准语言进行标记。当这种情况发生时,分析将变得容易得多。但是,现在有大量的页面和文档没有被标记,而且很可能永远不会被标记。自动分析自然语言的主题进行了大量研究;这是一个庞大而困难的课题。要对搜索引擎实用,分析不仅必须相当准确,而且必须非常快速。作为另一项好处,自然语言分析还可以帮助搜索引擎理解查询,并让用户输入更接近日常问题的查询。
然而,这不仅仅是推断概念。假设你输入了一个著名人物的名字。一些研究论文以美国前总统比尔·克林顿为例。对于“Bill Clinton”这个查询,系统应该返回什么类型的信息?传记?他当前的健康状况?克林顿总统任期的历史?他的电子邮件地址?让我们试一试:表5.1列出了几个主要搜索引擎的顶级命中结果。4
4 当然,这本书出版时,这些结果很可能会有所不同。
表5.1 主要搜索引擎对“Bill Clinton”查询的顶级搜索结果
搜索引擎 | 顶级结果 |
---|---|
AltaVista |
Counterfeit Bill Productions—George W. Bush, Laura Bush, Bill Clinton, Hillary Clinton, Jesse Ventura, and Al Gore “非官方”比尔·克林顿 新知识百科全书:比尔·克林顿 |
欢迎来到白宫 克林顿总统中心 “非官方”比尔·克林顿 | |
Netscape Search |
欢迎来到白宫 克林顿总统中心 |
Teoma |
克林顿总统文件白宫搜索引擎 克林顿图书馆书籍——讽刺克林顿图书馆又名克林顿总统中心 LindaTripp.com 琳达·特里普为公正反对比尔·克林顿诉讼的日记…… |
Ask Jeeves |
克林顿总统文件白宫搜索引擎 克林顿图书馆书籍——讽刺克林顿图书馆又名克林顿总统中心 城镇大厅:保守派新闻和信息——保守派运动始于此 |
Google和Netscape的顶级结果完全不合适,因为在撰写本文时,克林顿总统已经卸任一段时间了。所有五个搜索网站都在前三名中包含了讽刺或漫画网站,这可能不是大多数人的期望(尽管这是前面提到的意外发现的一个很好的例子)。Ask Jeeves还提供了一个侧边栏的建议主题,每个都是一个独立的超链接,用于缩小搜索范围。
- 比尔·克林顿,传记
- 克林顿总统
- 比尔·克林顿弹劾案
- 莫妮卡·莱温斯基
- 比尔·克林顿笑话
- 比尔·克林顿照片
- 比尔·克林顿日程
- 克林顿莱温斯基
- 比尔希拉里·克林顿
- 比尔·克林顿画像
尽管有帮助,但“比尔·克林顿,传记”下的第一个结果是希拉里·克林顿的传记,而不是比尔的。
总而言之,搜索结果有一定意义,但并不特别有响应性。但是,对于这样一个简单的问题,结果应该是什么样的呢?这并不容易知道,而更好的搜索引擎会试图想出一些有意义的内容,例如传记材料或主要就业信息。
商业搜索引擎在任何特定时间使用的具体方法通常不为人所知。Google的原理在其仍然是一个学术项目时就已经发表了,但毫无疑问,它已经扩展了自己的方法。我们测试搜索的结果确实表明了两点。第一,许多网站显然使用某种形式的语义分析,因为结果倾向于关于克林顿,而不是,例如,他的演讲集或旧地址列表。第二,讽刺性页面的提升位置似乎反映了它们的受欢迎程度。否则,这些页面如何能获得如此高的评价呢?(5.2.6节更深入地讨论了这个问题。)
显然,使用语义分析来发现资源中的概念和词义可以帮助在搜索过程中找到正确的信息。同样清楚的是,理解搜索请求的预期含义对于搜索的实质性有效性至关重要。下一节将讨论系统如何改进对查询的理解。
5.2.5 语义聚焦
在查询端可以采取哪些措施来改善搜索引擎对查询的理解?在某种程度上,需要将查询置于一个有助于搜索引擎进行有效搜索的上下文中。
来自用户的上下文
当用户在阅读文档的一部分时进行查询时,系统可以分析文档的该部分。假设你正在阅读一篇新闻报道。你突出显示一个短语并要求更多信息。系统会尝试分析故事的该部分,包括任何超链接。分析将产生概念及其之间的关系,系统将使用它们来增强查询。
即使故事不包含语义标记,这个过程也会很有用。如果包含,系统将能够更精确地完成其工作。如果用户的系统能够使用搜索引擎已知的术语和概念来增强查询,那么查询-搜索-结果的整个过程将更有效。
来自数据库的上下文
另一种策略是尝试对用户查询进行分类,然后使用该分类在知识库中进行搜索。然后,将使用知识库中的信息来增强发送给搜索引擎的查询。更好的方法是结合来自多个知识库的主题信息。为了使之奏效,系统必须能够识别查询的主题,即使它在不同的地方有不同的称呼。斯坦福大学正在开发的TAP项目已经演进了一种这样做的方法,该方法与RDF的设计非常吻合。
TAP开发了一种向服务器请求包含某个主题信息图谱的方法。接收到关于“一位名叫‘Tom Passin’、正在写一本关于语义网的书、电子邮件地址为tpassin@example.com、住在某个镇上、并且对飞行感兴趣的人”的信息请求的服务器,可能会发现它有一个关于名叫Thomas Passin的人的数据,此人住在与该镇相同的州,拥有一辆银色汽车,电子邮件地址为tpassin@example.com,并且喜欢飞行和音乐。将两者结合起来,系统就可以发现有一个人,其名字既有Tom Passin又有Thomas Passin,电子邮件地址为tpassin@example.com,住在某个州上的某个镇上,并且喜欢飞行和音乐。
TAP构建了一个可以识别许多知名人物和概念的知识库。TAP文档中的一个例子是关于著名大提琴家马友友(Yo Yo Ma)的查询。查询很可能与该大提琴家参与的音乐有关,TAP可以从其知识库中发现这一点。因此,TAP会尝试获取与Yo Yo相关的唱片、音乐会、音乐场所等信息,以及他当前的音乐会日程。所有这些信息都会被收集起来并呈现给用户。结果看起来像普通的搜索结果,只是它比通常的搜索结果更专注于音乐相关信息。大多数典型的分散的、不相关的结果都消失了。(TAP网站没有解释如何获取关于Yo Yo的非音乐相关信息。可能也可以这样做。)
主题身份——再次
回顾第2章,RDF将其信息保存为一系列简单的语句,称为三元组,因为它们有三个部分——例如,(Mycar, has-Color, Silver)。另外,从第2章和第3章回顾可知,一个名称可能标识一个资源,也可能不标识。RDF使用唯一的URI作为标识符。但也可以在不使用其标识符的情况下描述某物:“我的车是停在街区尽头附近的那辆小银色敞篷车”。
有些语句能很好地标识其主题,有些则不能。“拥有社会保障号码xxx-yy-zzzz的人”在美国是一个识别人的好方法,因为一个人应该只有一个社会保障号码。相比之下,“有棕色头发的人”则不利于识别,因为很多人有棕色头发。现在,假设我们在一个数据库中有关于一个人的陈述,在另一个数据库中有一些不同的陈述。如果它们是关于同一个人,并且它们足够好地用于识别,那么这两个图谱——代表两个数据库中数据的两个图谱——的某些部分将会匹配。这种匹配可以表明两者实际上是同一个人,如图5.2所示。
这样,一个数据库中的信息有时可以与另一个数据库中的信息相关联,即使它们都不知道对方的标识符。(TAP)对此主题有更多介绍。
5.2.6 社交分析
第5.2.4节中发现的结果似乎受到受欢迎程度的影响并非偶然。在科学研究的影响研究中,最有效的衡量标准之一是某项工作被其他研究论文引用的频率。同样,一些搜索引擎(特别是Google)会分析页面链接的模式和数量,这些结果在对页面重要性进行排名时起着重要作用。5分析可能变得复杂,特定页面的权重可能会根据传入链接的模式而增加。页面或网站被认为质量越高,它对页面排名的影响力就越大。
5 Google称其系统为PageRank。你可以在Google网站这里阅读更多关于PageRank的信息(他们还有一个可爱的戏仿页面),以及Sergey Brin和Lawrence Page的论文“The Anatomy of a Large-Scale Hypertextual Web Search Engine”。
图5.2 两个数据库中的数据,表示为RDF图谱。数据在两个数据库中的结构不同,但有一些相似之处。合适的处理器可以将数据库1中的“lives in”与数据库2中的“address”匹配。然后,它可以发现两个图谱的某些部分具有几乎相同的形状和连接类型。通过这一点,它可以推断出数据库2可能包含与数据库1中的同一个人William Sparks,因为地址具有相同的城市和州,并且电话号码匹配。事实上,“Bill”是“William”的常见替代说法,这加强了结论。两个图谱中匹配的部分已着色。
还有什么比使用构成网络特征的超链接来引导信息发现更具网络性的呢?当然,仅仅受欢迎程度并不能使某物准确(想想被反复重复的都市传说),但社会排名有着悠久的历史。民意调查是一种社会排名的形式。图书销售网站Amazon.com(现已扩展并销售各种其他商品)可以轻松查看购买相同商品的其他人的意见。亚马逊包含了人们评论的全文,因此这些评分会影响购买决策。
像RDF这样的技术对资源进行注释(见第4章)的能力可以为社交分析做出强大贡献,从而在搜索策略中发挥作用。
5.2.7 多次传递
显然,没有一种方法(甚至两种)就足以索引网络资源和分析查询。一种在研究论文中经常使用并且现在开始出现在一些搜索网站上的方法是,使用Google这样的网站(或一个以上的网站)进行初步查询,然后进行额外的分析。在(Amitay 2000)的研究中,工作始于在Google和其他搜索网站上搜索“Albert Einstein”。每个命中结果都由计算机分析,以找到其内容的最佳描述,然后将其呈现给用户或过滤掉。通过查找页面中的某些结构特征来分析命中结果;其他研究则使用不同的策略。
其中一些实验显然比目前常用的方法取得了更好的结果,相关性低的命中次数大大减少,应返回但被遗漏的页面也减少了。
5.2.8 点对点
另一种搜索策略是使用点对点网络,让其他可能知道有用信息的计算机来回答查询。NeuroGrid项目就采用了这种方法。参与者将书签引用存储到数据库中,该数据库可以与其他参与者共享。系统根据过去的经验,将查询定向到最有可能回答它的对等节点。NeuroGrid软件在用户的计算机上运行,还应该通过注意用户查询的行为并决定选择哪些建议来源来随着时间的推移提高其性能。
NeuroGrid不使用RDF或任何其他标准语言,但它确实以三元组的形式存储数据。因此,如果需要,可以将其修改为使用RDF。然后,系统可以适配以使用前面提到的其他一些策略。例如,它可以参与类似TAP的系统。
NeuroGrid很有趣,尽管它仍处于早期开发阶段。所有点对点系统都存在一个问题,即它们能否很好地扩展到大规模。尽管如此,NeuroGrid使用对等信息以及它根据用户行为调整其性能的尝试,可能对其他系统有所帮助。
5.2.9 聚类
许多搜索引擎以普通列表的形式返回结果,通常将(可能)最相关的结果放在顶部。但是,一个未经区分的列表可能很麻烦,特别是当搜索词有多种可能的含义时。最好将搜索结果分组到有意义的类别中。术语swing可以带来Java Swing用户界面代码库的搜索结果,摇摆音乐(big band时代),提高高尔夫挥杆,孩子的秋千,等等。将结果分组通常称为聚类。
表5.2 比较了Google搜索“child’s swing”的结果与当前在结果聚类方面领先者Vivisimo的结果)。6为简洁起见,Vivisimo的结果仅显示了集群而没有实际命中;集群标题后的数字表示每个标题的结果数。Vivisimo结果中的许多标题也有自己的副标题,但为简化起见未显示。
表5.2 Google和Vivisimo对“child’s swing”一词的搜索结果
你更愿意使用哪一组结果?大多数人可能会说“右边的聚类结果”——至少,前提是结果是好的命中。这并非旨在贬低主流搜索网站的成就,而是为了表明一个它们可以进入的有益领域。
直到最近,自动聚类通常不尽如人意,因此这里展示的能力尤其令人瞩目。计算机能力的提高与学术研究的进步(例如,Zamir和Etzioni [1998])相结合,取得了令人惊喜的好结果。但比表面看起来要复杂得多。
结果的聚类应该在哪里进行?显而易见的方法是根据整个索引文档集合设计一组类别——一个词汇本体——并将每个文档标记上其适当的分类。这种方法存在一些缺点,但有两个尤其突出:文档很少只涉及一件事,并且它们应该经常被放入多个类别。
此外,代表搜索引擎已知整个集合的类别集可能不适合你当前查询的特定结果集。在搜索结果返回时即时聚类可能更有用。这正是Vivisimo所做的——它使用搜索引擎随每个文档返回的短引用进行聚类。也可以将这种即席、即时聚类与预定义类别相结合,尽管Vivisimo网站没有这样做。如果结果如此,Vivisimo乐于将给定文档放入多个类别。附录中的书签案例研究也讨论了即席类别和多重分类的有用性。
即席聚类的有效性引出了第二点,一种困境。为了使此类聚类在语义网中可用,应该能够以其他计算机可以轻松操作的方式提供聚类。这很容易做到。但其他计算机如何知道这些即席类别是什么意思呢?根据定义,它们不是标准术语,因为它们是即时创建的。
第7章讨论了词汇本体的设计、构建和交换。通常,人们认为这意味着预定义类别集的定义,这又与这些聚类结果的即席性质相冲突。OWL词汇本体语言可以声明一个类别或术语等同于另一个。也许,将来,聚类引擎将能够通过此类方法将其即席聚类与其他词汇相关联。由于也可以针对词汇本体的术语进行聚类,因此应该可以将这些聚类与即席聚类相关联。
显然,该领域需要进行一些基础性工作。聚类结果是呈现大量结果以便人们有效使用的一种重要方式,因此这项工作很重要。
5.3 歪曲结果和欺骗搜索引擎
HTML页面可以通过使用META元素包含简单的元数据。页面设计者可以包含描述该页面的关键词,搜索引擎可以利用它们来对页面进行编目。这听起来很理想,并且非常适合扩展语义网功能。问题是,人们开始在页面中填充大量重复的相同关键词,并添加一些对搜索引擎似乎很受欢迎但却不适合页面的关键词。这种(滥)行为会导致不良结果并损害搜索引擎的实用性。因此,更好的搜索引擎不再过多地使用页面中自描述的META标签。
还有其他方法可以欺骗搜索引擎或用户。网站可能会被劫持——其主页可能被黑客攻击,导致访问者被重定向到一个看起来像原始网站但属于他人的不同网站。或者,URL可能会误导用户访问错误的网站。这里有一个例子。Open Directory Project可以在www.dmoz.org找到。Open Directory的目标是以非商业的方式生产一个目录,利用许多志愿编辑的服务。它使用自家的、可变的分类法——例如,Science/Biology/Agriculture/Forestry/Urban Forestry。但是,如果你(通过一个完全自然的错误)访问www.opendirectory.org,你会看到一个表面上看起来像www.dmoz.org网站但实际上是一个广告目录的网站。对www.opendirectory.org的链接可能会被页面排名系统错误地分析。
另一个偏差来源是付费排名。一些网站允许广告商购买返回命中结果中的前几名。如今,更好的此类网站会将付费返回结果(有时称为赞助链接)保留在一个单独且标记明确的区域,这是一个改进。然而,广告商可以通过网站不返回某些页面(可能是竞争对手的页面)而获得优惠。
结果是,有许多方法可以歪曲或偏倚搜索结果,而语义网上的搜索必须考虑到这些(下一节更多)。确保语义网数据和操作的可靠性是一个困难的主题,将在第10章“分布式信任和信念”中进一步讨论。
5.4 搜索与语义网
语义网的潜在贡献在很大程度上被呈现为向网络资源添加分类和标准词汇本体。搜索引擎将添加能够提取这些数据的软件,从而使搜索更加可靠。这似乎合乎逻辑,但我们已经看到它在几个领域会不足。
5.4.1 自描述元数据:并非万能药
正如本章所讨论的,使用自描述元数据进行网络搜索存在一些限制:
- 网络上的大部分材料可能不会被语义标记。
- 分类(除简单关键词外)的价值尚未得到证明,并且有一些证据表明它不会带来实质性更好的结果。
- 非标准元数据可能无效(参见[Utah])。
- 不正确的元数据不可避免地会导致比没有元数据更差的结果(参见[Sokvitne 2000])。
- 创建元数据可能成本高昂(参见[St. Laurent 2003]和[Bray 2003])。
- 任何自描述标记都固有地存在被欺骗和歪曲的可能性。
第二点和第三点表明,页面中包含的语义标记和分类在公司内部网中可能很有用;在那里,访问是受控的,自我推销(大概)会最小化,并且兴趣领域会相对受限。但对于完全互联的网络来说,情况则大不相同。语义标记仍然应该有用,但更多用于找到资源后的处理,而不是纯粹的搜索目的。
5.4.2 语义网改进搜索的可能性
鉴于自描述元数据对于通用网络搜索可能不可靠,而社交分析正变得越来越有价值,因此似乎语义网技术可以在几个通用方面最有帮助:
- 提高自描述的可靠性——这涉及到信任问题,是第10章的主题。页面内的元数据可以进行数字签名以证明其来源,搜索引擎可以考虑来源及其使用该信息对页面进行评分的潜在动机。社交分析可以应用于不同网站或添加了语义数据的作者的信任度,以便在推导页面排名时应用适当的权重。到目前为止,我还没有在文献或在线技术讨论组中看到这种方法的讨论,但它似乎合乎逻辑且具有潜在的力量。
- 为社交分析提供更多信息——这可能涉及第三方注释。也就是说,人们将以知识表示语言(如RDF)发布对特定网页的评论。当然,现在人们一直在评论网页,但他们是以自然语言的方式进行的。这种方法的一种发展方式是将高级的自然语言和链接分析结果转换为RDF并在网络上发布。任何包含语义标记的页面都将更容易分析并添加到数据存储中。这种运动——草根社交分析——已经开始在网络日志(或博客)社区中发生。博主们互相链接博客,并且越来越多的博客可以通过链接的数量显示其排名。一些人正在尝试工具来进行进一步分析。结果尚未以RDF等形式创建,但关键在于社交分析正在低调地传播。
- 使用数据集成技术,例如TAP使用的技术——这种方法要求服务器以标准方式(例如使用RDF)呈现其数据库中的数据。服务器必须能够通过匹配图片段以及通过其标识符来检索数据。
显然,还有其他方法可以通过为语义网开发的技术来潜在地改进搜索功能;其中许多方法前面已经提到过。其他正在开发的搜索改进,至少从表面上看,似乎并不真正涉及语义网本身,因此这里没有涵盖。但界限并不总是容易划清。
5.4.3 搜索与Web服务
第8章讨论了服务。搜索服务与其他类型的信息在互联网上的搜索有许多共同之处。信息提供者的动机有所不同,尤其是对于企业和商业服务,因为服务提供商在拥有其服务被找到和选择方面具有经济利益。
如果企业要合作使服务在互联网上易于查找和使用,它们将不得不采用一种能够最大限度地减少一家公司相对于其他公司优势的方法。旅行服务是能够查找任何航空公司的航班,还是只能查找那些支付足够多的钱成为其特权会员的航空公司的航班,哪种更好?越来越多的企业认识到,通用访问从长远来看对每个人都有好处。如果这种趋势持续下去,语义网将在服务发现和描述方面提供很多帮助。
5.5 总结
本章的结局令人惊讶。乍一看,从语义网的角度来看,搜索的未来似乎是大量引入标记的语义信息到网络资源中,并辅以精心开发的词汇本体。经典的逻辑推理技术将应用于页面分类,因此搜索将比现在有效得多。
相反,你已经看到页面中的自描述是不可靠的,而链接和意见的社交分析以及页面自然语言的语义分析可能会继续是最重要的。你还看到,对查询本身上下文的智能分析可能会显著提高搜索的有效性。这些认识导致了对即使是使用最新技术完美标记的自提供信息的信任问题,以及语义网将提供的注释和意见存储可能对搜索做出重要贡献的可能性。