2007年01月



    摘要:Blog是Web-log(网络日志)的简写,最早产生于Pyra实验室,用于项目小组成员间的沟通交流,后来发展为互联网上流行的个人知识管理工具和知识社区的平台工具。 个性化的知识管理功能和系统之间的标准化交互机制,使得Blog非常适合于自底向上地架构分布式知识社区。Blog系统设计时遵循的一些统一交互标准——RSS、Ping、Trackback、Social Tags等,使得跨系统的交互与系统内的交互几乎同样容易。基于Blog自下而上建构的知识社区如图1所示,其中每个成员都可以有一个完全独立的Blog 系统,这些Blog系统可以分布在互联网上的任何地方,社区组织者可以用集中订阅的工具把成员的Blog组织起来。     (全文共2673字)——点击此处阅读全文




    摘要:目前四大西方主流通讯社美联社、合众国际、路透社、法新社每天发出的新闻量占据了整个世界新闻发稿量的4/5。西方50家媒体跨国公司占据了世界95%的传媒市场,美国控制了全球75%的电视节目的生产和制作,许多第三世界国家的电视节目有60%-80%的栏目内容来自美国。美国电影产量仅占全球影片产量的6.7%,却占领了全球50%以上的总放映时间。
   中国目前共有报纸2119种,期刊9074种,出版社570家,广播电台282座,电视台314座,教育台60个,音像制品出版单位320家,电子出版物出版单位121家,WWW站点(包括.CN、.COM、.NET、.ORG下的网站)总数约为668900个,    (全文共301字)——点击此处阅读全文




    摘要:背景知识:搜索引擎的质量指标一般包括相关性(Relevance)、时效性(Freshness)、全面性(Comprehensiveness)和可用性(Usability)等四个方面,今天我们要谈的索引量就属于完整性指标的范畴。 首先需要注意的是,对于搜索引擎,网页的索引量和抓取量是不同的概念。搜索引擎的网页抓取数量一般都要远大于索引量,因为抓取的网页中包括很多内容重复或者作弊等质量不高的网页。搜索引擎需要根据算法从抓取的网页当中取其精华,去其糟粕,挑选出有价值的网页进行索引。因此,对用户而言,搜索引擎的索引量大小才更有意义。 其次,无限制增大索引量并不一定能保证搜索质量的提升。一方面,在全面性指标中,除索引量外,还需要考虑到收录网页的质量和不同类型网页的分布。另一方面,搜索引擎的质量指标体系要保证四方面的均衡发展,不是依靠单个指标的突破就可以改善的。目前包括雅虎中国在内的主流中文搜索引擎的网页索引量都在20亿量级,基本上可以满足用户的日常查询需求。     (全文共6708字)——点击此处阅读全文