心闻无遮论坛

登录

自留地汇集的文章是rss机器人程序自动搜罗，按照标题区分是否已搜集。
除非修改标题，否则同一内容源只索引最初发现的内容。

结果发现，这样做有个副产品，文章如果修改过标题就可以自动搜集同一文章先后多个版本。
这样就可以当webarchive用。

另外还存在个缺陷，同一内容源先后发表多篇同样标题的不同文章，新发布的不会收录。
这个要改进，尤其是论坛rss源，同标题标中率不低。

即使因此造成文章重复度增大，5万条文章数据库也不至于形成太大的冗余数据。

就事论事。 :-)

完整帖子：

山西老人158年三次转世前世状元今世村姑 ---齐愍师兄怎么看的说 - 东东, 2015-02-06, 15:44
- 那年的清代状元叫徐文元，江苏人。。。 - 齐愍乐平, 2015-02-06, 17:49
  - 哈哈，就是就是 - 东东, 2015-02-07, 05:59
    - 经常看网不如运动运动。 - 齐愍乐平, 2015-02-07, 12:12
      - 神奇的往往不可靠，平淡正常的往往有些道理。怎么读新闻。 - 齐愍乐平, 2015-02-11, 05:54
        
        晕。。。宏大叙事之“当” - tree, 2015-02-12, 02:23
        
        幸亏最后澄清一句.... - 二麻子, 2015-02-12, 04:12
        
        呵呵，想不搅和也不行 - tree, 2015-02-12, 09:07
        
        正常，心理需求。 - 齐愍乐平, 2015-02-12, 17:02
        
        自留地 - tree, 2015-02-15, 05:35
        
        呵呵 - 齐愍乐平, 2015-02-15, 07:22
        
        webarchive - tree, 2015-02-17, 18:11
        
        哦。。来个拜年话。 - 齐愍乐平, 2015-02-18, 03:43
        
        看组有趣的图片。。。 - 齐愍乐平, 2015-02-12, 06:27
  - 那年的清代状元叫徐文元，江苏人。。。 - Anna, 2015-02-11, 11:12
    - 每个人都想哭他（她）的不容易。。。 - 齐愍乐平, 2015-02-11, 14:37
      - 是你个头 - Anna, 2015-02-16, 07:57
        
        谢谢谢谢。。 - 齐愍乐平, 2015-02-16, 09:46