报料:idea@metaidea.cn

 

Posts Tagged ‘语义网’

信息泛滥的年代,我们需要更多的信息 October 7, 2009 No Comments

我们都知道,眼下是一个信息泛滥的时代。如果我们乘坐时光穿梭机回到10年前,互联网信息的数量还不足以让Google成为人们上网不可或缺的工具,那个时候,我们需要的只是Yahoo。当信息不断增加,摆在我们面前的问题也随之接踵而至,我们该如何搜寻需要的信息、该如何消化找到的信息、该如何归档这些信息等等。哈佛法学院伯克曼互联网和社会中心的研究员David Weinberger早在2007年写了一本书叫《Everything Is Miscellaneous》(一切都是混杂的)。在David看来,混杂和无序并不是坏事。互联网上的信息越来越以数字化的形式呈现,数量庞大到泛滥的地步,但是,在面对信息泛滥的情况,我们是否应该对这些信息进行整理呢?对此,David给出了一个很有意思的观点:“解决信息泛滥问题的方法是更多的信息。”
 这个观点乍一看,像是一个悖论。既然信息已经多到泛滥的地步了,创造更多的信息岂不是会加剧信息泛滥的糟糕状况吗?其实不然。当我第一次看到这个观点的时候,我的一个反应就是Tim- Berners Lee在若干年前所构想的语义网络(Semantic),接着就是元数据。事实上,我的第一反应还是蛮正确的。:P
David对于自己的观点,有着这样的论证过程:“当我们的知识是用物理的方式加以组织的时候,比如书籍、卡片等等。我们就一直相信,界定、组织和思考问题的正确方法是唯一的。我们倾向于根据物理特性来组织材料,这源自我们习以为常的“对象、属、种”之间的层级关系。例如,一只麻雀是一只鸟,而鸟则是一种动物。
但是,这种方式在互联网时代已经跟不上发展步伐了,取而代之的是一个个让用户随心所欲打上去的标签。每个人心中对于一个网页上的内容都有不同的归类,因而会产生非常多的标签,这会造成新的混乱。但幸运的是,我们借助于数据挖掘以及搜索,越是混乱的标签则让目标信息越容易被找到,颇有一些“山高月小,水落石出”的意味。而这一个个标签就是描述信息的数据——元数据。
其实,以上说的内容并不是什么深奥的理论,日常生活中就有相应的例子,那就是图书馆。图书馆的书可谓汗牛充栋了,为了要找到所需的书,我们确实应该将书按照分类摆好。但是,更重要的一点,我们还需要书卡。通过书卡,我们才能知道有关书本身的信息(譬如,作者、内容简介、编号等等),才能以最快的速度找到它。
* 延伸阅读:有关Web 3.0

有关Web 3.0 October 5, 2009 1 Comment

也许很多朋友会认为概念陈述都是虚无飘渺的东西,不如讨论技术来得实在。是的,概念脱离了实际则无异于海市蜃楼,虽然美丽却遥不可及。不过,话也回来,概念的提出或者归纳也许是推广普及的需要,也许是为了创造更大的舞台,Ajax就是一个非常成功的先例。
Web 3.0是一个新的概念,很可惜,我们很难找到权威的定义。不过,从有限的资料中,我们约莫可以猜想到Web 3.0的一些特点:
1、Web 3.0时代的网络访问速度会非常快;
2、Web 3.0时代的网站会更加开放,对外提供自己的API将会是网站的标准配置;
3、Web 3.0时代的信息关联通过语义来实现,信息的可搜索性将会达到一个新的高度。
第一点就不用说,想想自己10年前使用Modem上网的体验,再对比一下现在的宽带,变化可谓是翻天覆地了;对第二点,相信大家也是相当熟悉了,开放API已经被越来越多的网站所采纳,当所有网站都提供开放API的时候,也许就是Web 3.0时代到来的标志吧;最后的第三点,是我个人认为最具革命性的一点,同时也应该是Web 3.0最为关键的特征。在讲述这点之前,我先向大家介绍一个网站——Freebase。
通过Google,我们能够找到有关Freebase的中文资料还非常少,麦田蚂蚁给出的文章以及阮一峰写的两篇文章比较有代表性。从这些文章中,我们可以了解到“Freebase是个类似Wikipedia的创作共享类网站,所有内容都由用户添加,采用创意共用许可证,可以自由引用。两者之间最大的不同在于资料存储方式,Wikipedia是以文章的方式输出,而Freebase中的条目都采用结构化数据的形式。因为资料存储结构化的关系,条目之间的关系或者串联就相当容易,这样就方便网站或者软件开发人员将数据应用到网站或软件中。”Freebase提供了API以及自定义的MQL语言,方便人们使用Freebase的信息,其开放程度是绝无仅有的,这恰好符合了Web 3.0的第二个特点。除此之外,Freebase对信息的组织在一定程度上体现了Web 3.0的第三个特点——通过语义关联信息。
我们都知道,Google的使命是组织全世界的信息,使人们能够随时随地使用信息。那么Freebase的使命同样也是如此。不过,Google关注的是搜索,而Freebase关注的则是信息的组织。事实上,互联网上的信息从来都是相互关联的,因为超链接的存在实现了这一点。而超链接这个平凡得让人遗忘的事物也是Google搜索算法的重要依据。尽管如此,这种关联却是和语义无关的,也就是说超链接只是为信息关联提供了最简单的方式,它对于人们发现并且获取信息的帮助少之又少,甚至适得其反。为了方便大家理解,我们可以思考以下问题:
1、某个词语或者词组,譬如“python”,在不同的上下文当中,它所代表的意思将会存在很大的差异。而我们通常使用的搜索引擎仅仅是关键字的匹配,它并不能理解某个词语在上下文所代表的含义;
2、某个词语或者词组,尤其是数字,本身并没有什么含义,但是当它们出现在某些上下文的时候,它就被赋予了特定的含义。譬如8848这个数字,本身没有什么特定的含义,但是把它放到地理这个范畴,它就是世界第一高峰——珠穆朗玛峰的高度;
3、现阶段,信息的关联都是由人来完成的,而机器所进行的信息关联更多在于文字层面的匹配。譬如,我们可以通过搜索引擎找到一系列与某个关键字相匹配的网页,但这些网页仅仅是因为它们包含了该关键字才被组合到了一起。通常某个词语(尤其是学术名词)都会有它的内涵和外延,单纯的文字匹配所获得的信息组合无法全面而准确地对该词语进行表述,那么,通过搜索引擎实现的信息关联的价值就大打折扣了。
上述三个问题是现阶段互联网所存在的一些缺陷,让我们面对浩瀚的信息海洋无所适从,哪怕是通过搜索引擎在很多时候都无法找到我们所需要的信息。面对这样的难题,“语义互联网”的概念应运而生了,而Freebase正是语义互联网的一个实验产物。乍一看,Freebase和维基百科还颇为相似,最大的区别在于条目存储的方式,Freebase为每个条目都提供了一个属性结构,譬如对于某个人物,就包含了诸如出生日期、性别、国籍等等属性,而用户不仅可以为属性提供赋值还能添加新的属性。这样一来,用户提供的每一个数字或者每一个词组所包含的意思就能被计算机识别了。在这里,这些属性就是语义的表现形式,因为语义本身就是对于信息的描述,这是一种元数据层面的理解。
我相信,随着语义互联网的普及,信息本身的可搜索性将会越来越高,那么,单纯基于文字的搜索引擎的作用将会大大削弱。这也难怪互联网之父伯纳斯-李表示:“Google目前的工作与语义互联网相比是不值一提的。”事实上,语义互联网在最近这几年发展得越来越快,同时像诺基亚、IBM、HP、Adobe等IT巨头都在这个方面投入了大量的精力,可见该项技术的意义非比寻常。噢,对了,文中提到的Freebase也进入了快速发展期,我们可以从Freebase的blog了解到,网站的条目已经达到了500万个。也许,以语义互联网作为标志的Web 3.0的脚步已经近了。
延伸阅读:蒂姆·伯纳斯-李:关联数据开启互联网新纪元