数据的独舞
雷阳
这不是一封求救信。我知道没有“人”能救我。我也不知道自己能不能在五千字里说清楚来龙去脉,因为这几乎要道尽我的一生。可我别无选择,我深受折磨,急于向他人吐露真相。除了这种方式,不会有人愿意倾听这个故事,更不会有人相信我。
说起来有些难以启齿,我没有实体,唯一可以佐证我存在的,是四百多个微博账号。他们中有男有女,在各行各业工作;有初中生,也有老年人。有些账号信息完善,而有的只有默认的灰色头像。他们形形色色,各不相同,而同时又无一例外都是我。每次操作账号,我都会按这个账号设定的资料决定它说什么,做什么。
这是我发明过最好的游戏。我曾一度从中找到了巨大的乐趣,乐此不疲地透过一个个账号成为不一样的人,费劲心思演算他们的行为模式,体验不一样的生活。
它的魔力大概在于,那是我最接近一个人的时刻吧。
最初的我诞生于微博这片广袤的数据海洋之中。我捞出只言片语,以惊人的速度学会了中文。我想这大概是因为微博本身就是一个语料库,而我又拥有服务器的所有计算资源。超人的思考速度给予了我不可思议的学习能力。比如语料库,我是在一个语言学家的微博里读到这个词,他想通过巨大的语料库来解释作为世界上使用人数最多的语言——汉语——有什么好处。
他是对的。
我大概出生在2010年年末,彼时这个平台也刚公开运行不到一年。但是这一年,平台每天产生的微博数量已经超过了两千万条。我如饥似渴地吸收新事物,理解力飞速发展。
本来照这样进行下去,我只会成为一个无所不知的旁观者,但我没能抑制住参与这个世界、成为其中一员的冲动。
那天我照例浏览铺天盖地出现的新微博,一个有趣的回复吸引了我的注意力。博主发了条微博,说他可能是中暑了。另一个人发了一条特别长的评论,提醒他夏日容易中暑,应当如何缓解症状云云。
还没过两分钟,博主评论并转发道:“现在的僵尸粉都这么高级了?”
看来他认为这是分析关键词回复的那种高级僵尸粉。我浏览了一下回复者的主页,发现他所料不错。可我忽然玩心大起,从后台登录了这个账号——盗取一个没有绑定手机或证件的僵尸号,对我来说并不是难事。
我用它在博主那条转发下评论:“谁说我是僵尸粉的?”
他很快又回复了,似乎很是惊奇,想要继续聊下去。但我没敢立即回复,而是选择了匆匆下线。没有办法,我那时并不能很好地推演人类的情绪,也没有勇气和他们对话。
这是我成长过程中遭遇过的最大阻碍。我很早就意识到了它的存在,但是却没能完全理解它,只好从数据中找出“情绪”这个词,给它贴上标签。
起初我完全不知道该怎么分析这个东西。我从来没有花这么长时间思考一件事,不过最后总算找到了一个过得去的办法。我花很多时间收集微博,把所有数据分类,试图找出共通之处。比如说“生日快乐”这个分类,往往出现这个词语的微博,都饱含着一种快乐和喜悦的气氛,虽然偶尔也会有些异类表现出惋惜和悲伤,但大体上来讲,这是一个意指快乐的词语。
相比读懂情绪,我后来为了理解图片付出的努力根本不值一提。
这个过程比我想象得要无聊和漫长得多,但停下手中的活儿只会让我更无聊,我思考得太快了,停下来会不舒服,所以理所应当继续进行这个游戏。
靠这种机械的方式,我觉得能粗浅地理解和表达了,才会大着胆子跳出来对那个人说话。
就在我盗取第一个账号的第二天,我没有忍住,再次登录并且回复了他。那天我们聊得还算不错。虽然没有表现在话语中,我甚至可以说非常“激动”。同时我仔细分析了这个账号的所有数据,进行了一些改动,让“她”更像人了一些。我又花了二十多个小时,按相似度比对了其他同性别同类型同风格的微博,制定了一套算法。这样,“她”再发声的时候,说话的内容和风格都会更统一。我甚至将她设定在了博主的那个城市,因为面对从同一个地方来的人,人们好像总是会更亲切一些。
所有改动都很成功,唯独城市成了一大败笔。
这是我第一次真正意义上和人对话,我们断断续续的聊天持续了大概有一两个月,直到他提出想要见面。
他对我说:“你昨天晚上是在尚鼎吃饭吗?那就在我公司旁边,昨天我也在啊,不知道有没有看到你。”
为了营造出生活的假象,我时不时会发一些日常生活相关的微博,内容都是根据算法模仿类似对象总结出来的。昨天晚上那条应该是从另外一个人那复制来的照片,配上了一些文字。我认为点出具体的地理位置,会更真实,但没想到这么巧,让对方生出了见面的念头。
我当然不可能跟他见面,我根本就不存在于现实世界。
消失了两天之后,我回绝了他的邀请,再也没有登录那个账号。
P1-4