-
只说igooi 在blog中引入了标签的Folder概念,挺有意思。
只说仍然喜欢说被标签的内容展现。Folder的引入,应该是标签分类的一种展现方式。
igooi同时提到group,不过文儿里面还没有说明,不知是使用者的group还是标签的group,期待中。
只说说标签挺长时间了(文末提供一个list),从概念到实施,从分类到展现,似乎跟标签拧上了劲。今天继续说文档的相似性。这里的文档其实可以是一篇被标签的文章。
文章内容(文档)的相似性是个太大的话题,说了远去,就会扯到信息检索、模式识别、情报学。说起这些研究领域的一个方向:文档聚合在一起形成cluster,以及那个著名的概念
Cluster Hypothesis (不用看了,有点多):文档的相关性与相近的查询要求有关(closely associated documents tend to be relevant to the same requests),一时半会都回不来。有兴趣的朋友们过去吧,只说不等你回来,继续说下去。只说看到用来搜索论文等的搜索引擎
boardreader ,例如,
搜索blog这个关键字,左栏位就是一个 Clustered search的结果。Clustered search有复杂的cluster生成方法,如果没有猜错的话,
6e提到的
网页分类机应该都是采用这种机制来生成的。
东拉西扯完毕,正题开始。
标签可以看作是一种分类方法(
Taxonomy),社会化标签就是分众分类(
folksonomy),同时也可以看作是一个类聚方法,形成的结果就是类聚(cluster,或者叫簇),相似的文档可能拥有同一个标签,或者同一类标签。我们可以使用cluster相应的搜索和展现方法来处理标签。而且,延伸开去,文档相似可以得出标签相似,或者叫做标签关联性,这样就可以形成标签的树型结构,而不仅仅是一个tag图,或者仅仅是无意义的folder树。用cluster search的研究方法来类比,其实打标签可以看作是cluster的生成,标签可以与文档(也许是抽取的关键字)一起,形成用作相似度的向量模型。cluster的按相似度的树型展现方式,似乎更象是标签无序性的解决方法。
吕欣欣同学真快手也,昨天跟我msn聊天,同时文章一篇篇的出来,象下蛋一样。
只说看了小圈子、大应用的filangy,说要说两句话辩驳一下,才符合
所谓思想需要碰撞,这样才有可能接近真理(引这文上去看,好漂亮的金鱼),打个比方吧:
只说认为标签是小众的游戏,其实并不是说它不能被广泛应用。但是,这正如我们做了一款online版本(类比标签社会化)的游戏,却由于某些原因限制,不能在互联网上联机参与,而只能在网吧这个小局域网里面玩儿,也许这个游戏确实好玩,全国网吧都在玩。可是互联网上不能应用,其鸡肋味显而易见。
近期只说说标签文儿列表:
垃圾制造者是如何制造垃圾的一片竹林的标签标签,语言对世界的辅助标签,小众的游戏如何使用热门标签标签分类与版主引进标签资源的自由搭配和选择网摘与盗版、盗链标签广告标签,spam的下个目标?标签与黑名单引进update:2005年5月18日,cluster,国内中文习惯上一般称为“聚类”。谢谢大智周。:)
订阅我的RSS频道Trackback: http://tb.donews.net/TrackBack.aspx?PostId=385863