第二百七十九章 潮水退去,全是大虾(第4/7页)

“头,你知道吧,很多人,在不同的平台习惯用一个ID的。而且这批新用户注册的那么急,所以肯定有不少人用了常用的ID。”

还是那句话,人过留痕,雁过留声。

而且这痕迹里,往往带着很浓重的个人特色。

汇报人员继续说:“然后我们根据这四万个ID,逐一在微博上进行了搜索,然后爬取了这些用户名的所有的发言,再利用这些用户动态的相似性,进行深度挖掘。”

这是个极大的工作量。

一个ID在微博上有可能有成千上万个同名的帐号。

这些帐号的动态内容都得爬下来(这不违法,在地球上,好像是在2017年12月份,微博才关闭了API接口的。)。

爬下来之后还得对这些ID曾经发布的动态和内容进行关键词提取、照片信息提取,然后存档。

注意哦,这只是一个ID的工作量。

比如说有一个人在豆半上注册了一个帐号叫张三,你按照这个名字在微博上搜索,结果出现了一万个叫张三。

那这些张三的人的所有的动态都得爬下来。

可是你怎么知道这一万个张三里面,哪一个是你想要的呢。

豆半的工作人员坚信昨晚这些人肯定是有相似性的,比如他们都是某一个人的粉丝。

那么他们的发言里一定会提到同样的东西。

这个时候就要再拿出来一个新的ID,比如李四。

利用李四这个ID,在微博上进行搜索,又出来一万个李四。

照例,全给爬取下来。

接下来是王五、赵六……

然后再进行横向比对,一个个的去试!

总能试出来蛛丝马迹。

这个工作量是无比巨大的,对计算机的要求也很高。

这种情况下,豆半只能增加人手,外聘公司。

只是过去的这一夜,花了至少上千万。

但是这是目前为止豆半唯一的方法了。

其实还有一个方法,那就是豆半后台有这些新注册的人绑定的电话号码,如果他们拿着这些电话号码去找微博,在微博数据库里直接用电话号码查找的话,基本上一两个小时就能解决。

但是,这违法。

不同平台不可以把彼此的数据互通有无。

然而,豆半还真是高估了这些小粉丝们的水平了。

到第二天中午的时候,工作人员兴奋地跑来找北总:“北总!结果出来了!”

北总已经一夜没睡了。

听到这话,整个人从椅子上弹了起来。

“快给我看!我倒要看看是哪个王八蛋,胆大包天!”一向温和的北总,破天荒的骂人了。

工作人员拿来电脑,指着一个叫“和尘同光”的ID说道:“北总你看这个人,这是昨天参与打分的那些人其中的一个,我们用这个ID在微博上进行了搜索,最后锁定了一个微博用户,这是她的用户主页。”

点进去。

北总的眼睛眯了起来。

和尘同光。

2014年5月6号:“尘宝真是太帅了!”

2014年8月13号:“尘宝最新代言的卫生巾,暖暖的很贴心。”

……

2015年1月12号:“尘宝都当导师了,虽然许坤也很帅,但是尘宝你依然是我的唯一……”

2015年1月18号:“尘宝上《歌王》了,狗日的方澈,凤凰传奇居然是他!怎么哪都有他。”

北总的眼睛亮起来:“这是孙逸尘的粉丝?”

工作人员笃定地说道:“像她这样的帐号,我们筛选出来4781个!”

“池荣星!”北总咬牙切齿地说道。

工作人员继续汇报:“还有一批,是吴涛和许坤的粉丝,占了将近40%。”

说到这工作人员长吸一口气:“剩下的,都是在除夕夜当晚为孔俊贤摇旗呐喊过的!”

好家伙啊,北总这边是彻底连上了。

孔俊贤、吴涛、孙逸尘。

这都是流量阵营的。

他妈的,原来是你们几个在搞鬼!

尤其是孙逸尘。

《无伤》是他家的电影,他的粉丝来干这事,合情合理。

北总猛地抬起头:“这算是证据了吧?报警!立案!”

豆半私人虽然可以调用用户绑定的电话号码,但是无权私自骚扰,但是立案之后,就可以在警方的监督下,给这些号码打电话,甚至可以进行必要的录像。