采集猫爬取群或频道的一些注意事项

采集猫爬取群或频道的一些注意事项

这里简单说下爬取群/频道的时候的一些注意事项

(不管是群或者频道,飞机官方给的类型就2种,group或者supergroup,在飞机看来,群跟频道都是一个东西):

1,群/频道在新建的时候是普通群,如果是公开群(就是带公开链接),则自动升级为超级群(群id是-100开头的)。

2,如果是私密群或频道,则仍然是普通群/普通频道(id是-4开头的),但是普通群/频道可以在满足条件后自动升级为超级群(-100开头的),条件很简单,经过我们测试,只要群/频道里有2个以及以上管理员(含群主),则自动升级为超级群!

3,超级群/频道是普通群/频道升级而来的(群,还是那个群,只是这个群的id 消息id等等都变了),普通群/频道的时候,里面发的消息的id比如是8位,而升级为超级群后,新发的消息id都是11位,以前的老消息id还是8位。

4,这就导致个问题,爬虫在爬的时候,因为是倒着爬的,它先爬超级群的消息,一直爬到升级为超级群的第一条消息,然后再往前的时候发现找不到新消息了(再往前的消息是普通群消息),就认为爬完了。

5,如果我们发现这个情况了,你可以把爬不了的那天作为结束日期,清除一下爬取历史,它就会从普通群的消息开始爬,就能继续识别了。

6,普通群/频道很容易能自动升级为超级群,但是超级群不能降级为普通群,并且普通群的存在是很小一部分,因为公开群/频道自动就升级为超级群,私密群/频道只要有2个管理员(群主新设置个管理员就行了)就自动升级为超级群,所以理论上来说,我们可以简单认为没有普通群!

7,还有一种情况爬不了,去年年初的时候飞机升级,将用户id由最早的32位升级为64位,之前的32位id有可能采集猫也识别不了,不过这个目前经过测试我们发现也能正常爬取,只是有可能爬不了!

8,针对克隆功能,除了上述爬不了的情况外,还有一种情况也爬不了,就是频道刚绑定评论区的时候的评论区内容,也爬不了。经过推测,我们感觉是由于上面第四点原因引起的,讨论群是普通群升级为超级群以后,导致之前的内容也爬不了!