第945页

这些帐号的动态内容都得爬下来(这不违法,在地球上,好像是在2017年12月份,微博才关闭了ai接口的。)。

爬下来之后还得对这些id曾经发布的动态和内容进行关键词提取、照片信息提取,然后存档。

注意哦,这只是一个id的工作量。

比如说有一个人在豆半上注册了一个帐号叫张三,你按照这个名字在微博上搜索,结果出现了一万个叫张三。

那这些张三的人的所有的动态都得爬下来。

可是你怎么知道这一万个张三里面,哪一个是你想要的呢。

豆半的工作人员坚信昨晚这些人肯定是有相似性的,比如他们都是某一个人的粉丝。

那么他们的发言里一定会提到同样的东西。

这个时候就要再拿出来一个新的id,比如李四。

利用李四这个id,在微博上进行搜索,又出来一万个李四。

照例,全给爬取下来。

接下来是王五、赵六……

然后再进行横向比对,一个个的去试!

总能试出来蛛丝马迹。

这个工作量是无比巨大的,对计算机的要求也很高。

这种情况下,豆半只能增加人手,外聘公司。

只是过去的这一夜,花了至少上千万。