不容易看见的事
“妈耶,做号集团真牛逼!敢这么直接找上门啊。。。”
“太明目张胆了这些人!”
某内容平台的工作群被一张聊天截图炸开了锅,一位作者向平台举报说有“做号党”主动向他寻求“合作”。
对方不仅声称登录过作者的账号,还直接甩出了登录密码,说“看你做不出来收益,所以才想和你合作”,颇有种“老子找你是看得起你”的架势。
对话框左边是做号党,右边是号主
究竟发生了什么?
“我估计是平台更新了安全策略,做号党原来盗来的账号无法登录了。” 丁丁告诉我。
丁丁不是天线宝宝四人组里的“丁丁”,而是腾讯企鹅号平台安全部的一位技术小哥。日常工作是跟黑产们 “贴身肉搏”,防止平台被薅羊毛,确保平台安全。出于尊重个人意愿,不透露真实姓名和职务,姑且用“丁丁”代替。
半个月前,丁丁和同事们对做号集团们来了一次“地毯式轰炸” —— 直接停用了“手机号/邮箱登录+密码”的登录方式,只允许用绑定QQ和微信扫码登录,这一下就斩断了不少做号党的财路。
“做号党手里的账号来源一般有两种:一是用机器自动化大批量注册,二是通过撞库等手段盗过来别人的账号密码。”
丁丁告诉我,无论哪种,都免不了用手机号/邮箱号+密码登录,现在平台直接停用账号密码登录,做号党手中的一大批账号将被废弃。
在对阵做号集团的漫长战争里,丁丁和同事们又赢了一场战役。但仅仅在一个月之前,他们还深陷在一场众所周知的因为盗号、做号党引发的质疑之中。
并非所有幕后努力都能被人看见,所以我决定和他们聊聊日常,看看内容平台和“做号党”之间究竟发生过怎样的攻防对抗?以及,为什么腾讯辣么有钱,依然灭不掉做号党?
和做号党的“缠斗”
“注册账号是每个黑灰产薅羊毛的必经之路。” 丁丁告诉我,倘若来者不拒,企鹅号每天得有四到五万个新增用户。但用膝盖也能想到,庞大的注册量中必然混入了不少黑灰产,所以他的工作之一就是在路口布防,拦截一切可疑注册者。
透过安全数据,丁丁能感受到做号党们的脉搏。
他说,“每次实施新的防御策略,做号党的活动迹象都以肉眼可见的速度减少,没过多久又会反弹,像一群总灭不干净的小强。”
企鹅号的第一道防御线——黑产库,来自盟友腾讯安全平台部。
这个部门相当于整个腾讯公司的保镖,职责是保护腾讯全线产品的安全,丁丁一般亲切地简称它“安平”。
安平的一项日常工作就是搜罗各种行为可疑的 IP、手机号、邮箱地址等数据,给他们打上标签,汇成一个庞大的“黑产库”,提供给腾讯系的各个产品线,帮小伙伴们鉴别正常注册和恶意注册。
丁丁告诉我,“企鹅号接入黑产库就等于在注册环节加了一道过滤网。效果立竿见影,每天注册量一下就降到两三万。” 也就是说,有两三万次恶意注册来自做号集团,被拦掉了。
为啥做号集团这么执着于注册账号这件事?很简单,对做号团伙来说,号就是钱。
“一个企鹅号每天限制发5篇文章,两个账号就能一天发10篇,三个就15篇……发得文章越多,收益自然就越高。”
在利益的驱使下,做号团伙非常勤奋,别说一天五篇,十五篇,甚至二十五篇都不在话下,对账号的需求数当然大。
丁丁告诉我,做号已经形成一条完整的产业链。
“有人专门‘下号’(提供账号),有人专门收集个人信息做实名认证,有人负责炮制内容吸引流量,用平台补贴、广告等方式变现,下游还有人专门给他们提供刷量服务。”
从上至下环环相扣,明确分工。
“下号”是重要的一环,主要通过程序批量注册、撞库盗号等手法。依照不同平台的注册和盗号难度,每个账号通常就能卖十几元到几十元不等,有实名认证、原创认证的账号则售价更高,有的能卖到几千块一个。
丁丁说,“做号团伙很狡猾,每天会换用各种手机号、邮箱,切换IP地址来伪装成正常注册,试图躲避黑产库的拦截。所以我们当然还有别的招。”
企鹅号的第二道防御线是实名认证,只有实名认证的账号才能发布内容。
业内以往最通用的实名认证方法是“上传手持身份证照片”。简而言之,让你捧着自己身份证拍张靓照,传到平台进行人工审核。讲真,这种认证方式体验不好,总有种犯人拿着号码牌拍照的感觉。就像这样:
你可能有点纳闷,Google 上怎么能随手搜到那么多手持身份证照片呢?是的,很多人的身份认证信息其实早就泄露了,所以魔高一尺,单纯靠上传手持身份证这种方法其实挡不住做号集团。
去年9月份,温州警方就破获了一起公民信息买卖案。据通报,该团伙的手持身份证照片仅售几毛钱一张。收集到“四件套”(手持身份证、手持报纸、手持白纸、身份证正反面)打包卖给“注册商”,单价也就百来块钱。
做号集团便是所谓“注册商”,典型买家。
图片来自警方通报新闻
丁丁告诉我:“除了直接在地下黑市购买,有的做号集团还会雇人去农村收身份证信息,这并不难。”
道高一丈,企鹅号的对抗方法是人脸识别。
腾讯公司有专门做人脸识别技术的团队,正好又能帮上忙。“实名认证时只要用人脸识别一查,冒用他人的身份信息肯定通不过,一下子就又把黑产的策略击破了。”
丁丁说,人脸识别上线才几天,每天新增的实名认证数量猛降四五千,效果立竿见影。
但事儿还没完,“做号集团肯定会反扑,这是常态。”
平台用人脸识别“大面积灭火”之后持续监测数据,不到一个月,实名登记数量果然又开始反弹,火星复燃了。
我问他:“是黑产有办法骗过人脸识别?”
“倒不是,他们用了一种迂回策略来避开人脸识别。” 丁丁说,之前企鹅号平80%的账号是个人号,只有不到20%的企业号。人脸识别功能启用后,个人号的日均实名认证量迅速减少,企业号日均认证量却开始上涨。
两三个月时间,企业号占比竟涨到接近 70%。也就是说,做号团伙们为了躲避平台的打压,从个人号集体涌入了机构号。
这给企鹅号安全部门带来一个难题。
“企业号实名认证信息一般要求填企业法人,也就是公司老板的。但实际操作账号的人通常是底下负责新媒体运营的普通员工,很少有公司老板亲自来操作媒体账号的。”
如果强行要求人脸识别,“小编”就得必须拽着自家老板来刷脸认证,这会给正常企业用户带来困扰。
丁丁又想了一招 —— “要求企业号绑定公司的银行账户,并且账户名必须和企业营业执照上的公司名相同。我们往账户里打一分钱,就能核对账号真实性。
到这一步,坑又填上了。
“如此一来,做号党岂不是无路可走了?”
“你放心,做号党们一定会想出各种怪招,这场仗得一直打下去。” 丁丁说,就在前不久,他们又发现有大量账号试图用PS制作的假营业执照蒙混过关,同事们正在商讨针对性打压策略,打算再加一层额外的校验系统。
他说和做号集团对抗让他深刻体会到一件事:做号集团背后出活生生的人。
若你把做号团伙当成游戏里三拳两脚就干掉的小兵喽啰,试图用一道墙,一个篱笆就拦住,他们就会用一次次反扑来告诉你他们是一个个真实“玩家”,有专业工程师,有统一指挥者,还有黑产盟友………
但平台就无计可施了吗?
“做号党的目标是钱,只要作案成本越来越高,他们就会逐渐放弃,或者转移到其他更容易得手的目。所以,每一次平台打击都是在挤压做号党的生存空间。”丁丁说。
很少有人会注意到,企鹅号仅仅在2019年第一季度就拦截了黑产账号注册和登录235万次,拦截准确率达到了99%。
不公平的较量
聊完“下号”环节的攻防战,接下来做号集团就该写稿了。
丁丁的同事迪西给我发来一个文档。
迪西是企鹅平台内容部门的,为了知己知彼,她日常会花时间去了解做号集团的内容生产模式,以试图针对性地打压。
我打开文档,做号套路简直深似海。
翻到“伪原创的方法技巧”一章,里面详细记录着如何用“等价替换法”把炮制出一篇伪原创:
“等价替换法又分为文字排序法、数字替换法、词语替换法……”
这些方法不仅成体系,且分门别类,可操作性很强,基本属于义务教育水平以内的人看完都能上手实操。
肉有五花三层,“文章搬运大法”也分三六九等。
“初级搬运”仅仅修改标题和部分词语;“中级搬运”会对标题段落进行重排;“高级搬运”则会综合多篇稿件内容,来个“葫芦娃大合体”;“终极搬运”最厉害,不仅会把原文许多段落换个说法,还会将原文配图也换成意思相近的其他图片。
除了雇佣劳工手动搬稿,规模稍大一些的洗稿团伙大多已学会用科技的力量来武装自己,全面步入工业化时代。
自动化搬运软件也分为初、中、高、终级。
初级的软件大多是一键直接搬运,特点是替代手动操作,速度快效率高。
一般这类工具还提供“多平台管理”,可以同时管理企鹅号、头条号、百家号、大鱼号等多个内容平台的账号。
如果某个原创作者在 A 平台发了篇文章,第二天刚打算发到 B平台,就发现已经被人抢标了原创,那么很可能对方就是用这类搬运工具打了时间差。
“中级搬运软件”开始进入“半自动辅助写稿”时代。
在初级的基础上,想洗哪篇文章就在软件里输入文章链接,它会从全网抓取所有相似文章,显示出阅读量、相似度、关键词、词频统计(特定词出现的频率),并用不同颜色标明好。
顺着数据引导,分分钟改出一篇“优秀”的伪原创,既能避免被平台判为抄袭,又能斩获更多流量。
高级搬运软件已经进入“以机器为主,以人为辅”的工业自动化生产时代。
在初、中级的基础上,高级搬运软件实现抓取、识别、替换等整个流程的自动化,人类唯一需要做的就是审核“机器写的文章”,把逻辑不太通顺的地方捋顺。
某款针对企鹅号的做号软件
“终极洗稿软件”更厉害,全面带领洗稿集团全面走进 AI 时代,从搬运到洗稿,再到检测文章重合率,全部自动完成。
具体就不展开聊,反正文档中提到许多专业AI领域词汇,什么NLP自然语言处理、结构化信息抽取算法、语义联想、情感分析、文本聚类、关键词提取……
从展示的仿写结果来看,也非常接近人类。
某AI仿写软件,点开图片可看仿写效果
用这些方法洗完稿发到各大平台,先甭管有没有人看,让下游负责灌流量的公司往里刷些阅读量,什么"群控系统”那都是灰产团伙标配。总之,想办法干扰平台的判断,让推荐算法误以为文章是用户爱看的,继而得到更多推荐量。
传说中的群控系统,图源自网络
至此,你已经清楚做号集团的洗稿套路和工具了,现在要怎么对付他们?怎么在海量的文章中分辨出哪个是原创,哪个是仿写,哪个是二次创作,哪个是抄袭?鉴定标准是什么?如何防止误伤?
这都是摆在迪西以及所有内容平台面前的难题。
迪西说,最初,平台会为每一篇文章生成一个“MD5指纹”,如果比对指纹发现两篇的指纹相同,则判定为“搬运、抄袭”,给予打压。
可后来,做号团伙学会拆分文章和段落,学会替换同义词、更改语序,洗稿技艺越来越精湛,以往那些反抄袭策略便逐渐失效。
我问迪西能不能同样用 AI 技术来鉴别原创,她说检测侵权的技术正在不断升级,也有用到 AI相关技术。但她同时也反问我:“你觉得什么算是原创?”,我一下被问住了,心想是啊,如果连人类在原创、洗稿问题上都尚有争议,没有明确边界,那训练出的 AI 又怎么能准确鉴别?
这不仅是内容平台的困境,也是整个创作环境的困境。
同样在互联网、人工智能技术的加持下,复制粘贴、洗稿、搬运、抄袭变得越来越容易,平台却越来越难反制。原因很简单,前者是把盐和胡椒混在一起,后者却要把二者分开,这注定是一场不公平的对弈。
但对于内容平台来说,这场仗再难也得打下去。我问迪西,那企鹅号打算怎么办?
“慢慢来,情况会一点点好转。”她告诉我,企鹅号目前在建立原创自动维权机制,作者授权以后,企鹅号会在全网监测侵权行为,并且主动发起维权。
图片截取自企鹅号后台
很多原创作者感慨侵权易,维权难。把维权索赔机制建立起来,提高侵权者的风险成本,这倒是条不错的路子。
这是“堵”的一方面。“疏”的方面,企鹅号也会通过创建有版权的素材库、版权二创开放平台以及完善内容服务商体系,帮助创作者提升原创能力。
战斗会停止吗?
“做号党未来会消失吗?平台和黑产之间的战斗会停止吗?” 我问丁丁和迪西。他们都说不会,这是一场无止尽的攻防对抗。
但我觉得会。在这件事上,我比较乐观。
让我们把镜头拉远,会发现一件有意思的事,最近两三年,腾讯、百度、字节跳动等互联网巨头们正在打一场激烈的内容“抢位战”,所有人都往里砸钱都毫不含糊。
今日头条说一年补贴个几十亿给原创作者;百度不服,下注100亿连眼都不眨;腾讯差那几个钱?100亿是吧?再加十几个亿………
所有人僵持不下,这才给了做号集团留出了生存时机。
这让我脑补出一个很滑稽的画面:枪战电影里,一堆枪神用枪指相互着对方的头,气氛紧张,谁都不敢开枪也不敢撒手,此时几个小蚊子嗡嗡飞过来,美滋滋把所有人吸了个遍。
其实大家都想把那破蚊子一巴掌拍个稀巴烂(这也不难),可是僵局里,谁顾得上那个蚊子呢?
回想一下,互联网黑灰产的一次次出现的时机,是不是都对应着一场“鹬蚌相争渔翁得利”的故事?
出行大战那会儿,有人注册一堆司机账号蹭补贴,月入数万;共享单车大战那会儿,有人用面包车载着单车来回兜风领红包,月入数万;外卖平台大战那会儿,有人刷空订单骗补贴,又月入过万。
剧情都差不多:风口出现,巨头抢位,砸钱补贴,黑(灰)产进场,喜提羊毛。
所幸,如今“内容大战”僵局持续了好几年,已经逐渐被网信办约谈、用户吐槽、媒体质疑等诸多因素打破,大家都开始放下手枪全力先拍死身上的那只“蚊子”。
迪西说,目前企鹅号正在调低部分内容的收益系数,放弃掉一些流量型KPI,把“全品类内容”作为主要工作目标,包括引入各个领域头部的优质账号,给予政策上的倾斜,并且筹备原创专家委员会,建立一套完整的原创权益审核、监督、处罚流程,挤压掉做号集团的营收空间,优化企鹅号原创生态。
再看看今日头条、百家号,其实也在陆续实施类似的计划。
内容平台和做号党还会经历一个博弈的过程,但邪不压终究是亘古不变的真理。
【来源:浅黑科技 作者: 谢幺】