webarchive

by tree ⌂, Tuesday, February 17, 2015, 18:11 (3567 天前) @ 齐愍乐平
编辑 by tree, Tuesday, February 17, 2015, 18:14

自留地汇集的文章是rss机器人程序自动搜罗,按照标题区分是否已搜集。
除非修改标题,否则同一内容源只索引最初发现的内容。

结果发现,这样做有个副产品,文章如果修改过标题就可以自动搜集同一文章先后多个版本。
这样就可以当webarchive用。

另外还存在个缺陷,同一内容源先后发表多篇同样标题的不同文章,新发布的不会收录。
这个要改进,尤其是论坛rss源,同标题标中率不低。

即使因此造成文章重复度增大,5万条文章数据库也不至于形成太大的冗余数据。

就事论事。:-)


完整帖子: