webarchive
自留地汇集的文章是rss机器人程序自动搜罗,按照标题区分是否已搜集。
除非修改标题,否则同一内容源只索引最初发现的内容。
结果发现,这样做有个副产品,文章如果修改过标题就可以自动搜集同一文章先后多个版本。
这样就可以当webarchive用。
另外还存在个缺陷,同一内容源先后发表多篇同样标题的不同文章,新发布的不会收录。
这个要改进,尤其是论坛rss源,同标题标中率不低。
即使因此造成文章重复度增大,5万条文章数据库也不至于形成太大的冗余数据。
就事论事。
自留地汇集的文章是rss机器人程序自动搜罗,按照标题区分是否已搜集。
除非修改标题,否则同一内容源只索引最初发现的内容。
结果发现,这样做有个副产品,文章如果修改过标题就可以自动搜集同一文章先后多个版本。
这样就可以当webarchive用。
另外还存在个缺陷,同一内容源先后发表多篇同样标题的不同文章,新发布的不会收录。
这个要改进,尤其是论坛rss源,同标题标中率不低。
即使因此造成文章重复度增大,5万条文章数据库也不至于形成太大的冗余数据。
就事论事。
完整帖子: