博客

只说 sayonly.com

-只说

igooi 在blog中引入了标签的Folder概念,挺有意思。只说仍然喜欢说被标签的内容展现。Folder的引入,应该是标签分类的一种展现方式。igooi同时提到group,不过文儿里面还没有说明,不知是使用者的group还是标签的group,期待中。

只说说标签挺长时间了(文末提供一个list),从概念到实施,从分类到展现,似乎跟标签拧上了劲。今天继续说文档的相似性。这里的文档其实可以是一篇被标签的文章。

文章内容(文档)的相似性是个太大的话题,说了远去,就会扯到信息检索、模式识别、情报学。说起这些研究领域的一个方向:文档聚合在一起形成cluster,以及那个著名的概念Cluster Hypothesis  (不用看了,有点多):文档的相关性与相近的查询要求有关(closely associated documents tend to be relevant to the same requests),一时半会都回不来。有兴趣的朋友们过去吧,只说不等你回来,继续说下去。只说看到用来搜索论文等的搜索引擎boardreader ,例如,搜索blog这个关键字,左栏位就是一个    Clustered search的结果。Clustered search有复杂的cluster生成方法,如果没有猜错的话,6e提到的网页分类机应该都是采用这种机制来生成的。

东拉西扯完毕,正题开始。
标签可以看作是一种分类方法(Taxonomy),社会化标签就是分众分类(folksonomy),同时也可以看作是一个类聚方法,形成的结果就是类聚(cluster,或者叫簇),相似的文档可能拥有同一个标签,或者同一类标签。我们可以使用cluster相应的搜索和展现方法来处理标签。而且,延伸开去,文档相似可以得出标签相似,或者叫做标签关联性,这样就可以形成标签的树型结构,而不仅仅是一个tag图,或者仅仅是无意义的folder树。用cluster search的研究方法来类比,其实打标签可以看作是cluster的生成,标签可以与文档(也许是抽取的关键字)一起,形成用作相似度的向量模型。cluster的按相似度的树型展现方式,似乎更象是标签无序性的解决方法。

吕欣欣同学真快手也,昨天跟我msn聊天,同时文章一篇篇的出来,象下蛋一样。只说看了小圈子、大应用的filangy,说要说两句话辩驳一下,才符合所谓思想需要碰撞,这样才有可能接近真理(引这文上去看,好漂亮的金鱼),打个比方吧:
只说认为标签是小众的游戏,其实并不是说它不能被广泛应用。但是,这正如我们做了一款online版本(类比标签社会化)的游戏,却由于某些原因限制,不能在互联网上联机参与,而只能在网吧这个小局域网里面玩儿,也许这个游戏确实好玩,全国网吧都在玩。可是互联网上不能应用,其鸡肋味显而易见。

近期
只说说标签文儿列表:
垃圾制造者是如何制造垃圾的
一片竹林的标签
标签,语言对世界的辅助
标签,小众的游戏
如何使用热门标签
标签分类与版主引进
标签资源的自由搭配和选择
网摘与盗版、盗链
标签广告
标签,spam的下个目标?
标签与黑名单引进


update:2005年5月18日,cluster,国内中文习惯上一般称为“聚类”。谢谢大智周。:)

    订阅我的RSS频道



Trackback: http://tb.donews.net/TrackBack.aspx?PostId=385863


[点击此处收藏本文]  发表于2005年05月18日 9:48 AM




正在读取评论……

发表评论

大名:
网址:
验证码
评论 
   

news

sayonly.com
mail me
RSS-feed.sayonly.com-xml
用bloglines订阅
用myyahoo订阅
用gougou 订阅
用rssshow 订阅
本站Creative Commons License:署名、非商业

HOT

xml 从blog到成书   立即查看

讨论ing的话题:

系列:移动网络是否会开放?
查看系列文章
网志与博客:blog的中文历程
查看系列文章

最近文章

     -订阅 feed.sayonly.com Email:

最近收藏

     -订阅 tag.sayonly.com
Email:

导航

blog stats

文章

收藏

相册

人员

存档


正在读取评论……