AI能让内容平台更有序吗? 圈
自去年AlphaGo打败人类顶尖棋手柯洁以后,大众关于AI的想象和关注就再也没停止过。今年的GMIC大会(全球移动互联网大会)更是直接把AI放入了主题,取了个名字叫“AI生万物”。
现在,AI已经把触角伸到了内容领域,通过算法,帮助平台完成了内容的分发和审核。
但这不是全部,GMIC大会上,知乎合伙人、高级副总裁李大海做了一个分享,透露的信号是,内容社区中的AI技术已经可以开始进行语义识别和语境判断:“如果把知乎看成是一座生活着一亿多居民和游客的超级城市,知乎的社区规范就是让城市正常运转的法律法规。在这样的规模下,只通过产品和运营手段来人工完成社区管理相对比较低效。知乎已经开始大量引进 AI,更智能高效地执行法律法规,让知乎这座城市更加文明有序。”
李大海用了一个词来概括,叫“智能社区”,官方的解释是:AI 已经 参与社区内容分享和流通的每一个环节,实现更精准高效的连接,让对更多人有价值的问题被提出,让最适合回答的用户被邀请,让更多分享见解经验的欲望被激励,让更多专业认真的知识被推荐,让更多人的好奇心被满足,让 1 亿 4000 万注册用户甚至数亿网民连接到一起,这是知乎正在努力,并且初步成型的智能社区。
为什么知乎要下大力气去做智能社区?这是做移动互联网平台的必然。
2013年3月知乎放开注册,当年用户从40万暴增至500万,此后继续保持着上升趋势。李大海称,“在人与人、人与内容所产生的连接上,知乎过去两年时间处于一个前所未有的爆发状态。”
公开数据显示,截止到今年3月份,知乎的注册用户量达到1.4 亿,平台日活跃用户超过 3400 万,这些用户在知乎上累计贡献了 2300 万个问题和近 1 亿个回答。
李大海所说的“爆发”,会让平台的内容审核工作和社区氛围的维护,面临巨大的挑战,如果只依靠人工,不仅效率低下,还不一定可以对内容做出“标准化”判断——毕竟人的决定正确率还达不到百分之百。
知乎这样的问答社区和今日头条类的资讯平台不一样,不是只完成分发和内容审核就可以。平台上的用户需要看到更高质量的回答,也就是内容实际上产生的价值。
刺猬公社(ID:ciweigongshe)了解到,在知乎内部,为了更好地选出有价值的回答,不会只依靠“点赞量”一个数据,那些被更多专业人士认可的回答,获得优先推荐位的机会可能更大。
反过来,单个用户在知乎的回答和在知乎上的“专业度”要得到系统的认可,也和其他专业人士的认可有关,不单单看粉丝数和获得的点赞量。
不过那些调查类的产品测评和情感话题的回答,不在这个权重机制的考量范围以内,毕竟分手复合,结婚出轨,三姑六婆的家长里短,连人都弄不清楚。弄清楚了也不好说对错,人类向往做出最符合经济规律的决定,但感性时常出来作祟。
很多同类产品正在通过运营“高质量回答”和“内容价值”来瓜分知乎的问答市场,比如今日头条的悟空问答,腾讯新闻客户端的问答产品,高质量的回答往往会成为第一波流量的来源。
但知乎的壁垒不只是“价值”,还有“社区”。社区氛围是不能通过运营快速积累的,能够让大量用户主动提出问题、回答问题,并不容易。李大海在分享中还提到一点:良性讨论,好好说话。
如果AI要致力于“社区氛围”的维护,那么它需要更多地懂得人类的语言,不只是理解字面意思,更需要懂得文字背后的深意。
“阴阳怪气一直都是情感分析领域的前沿问题。这种修辞手法使用正面的词汇表达负面的含义,需要对语义有更深入的理解才能很好地识别。就像生活大爆炸里的谢尔顿,作为一个物理学家,智商排到全人类前 1%,也经常听不懂别人的讽刺。”李大海对AI在内容管理上的应用还有更高的期待。
谢尔顿现象充分说明了AI在学习人类语言的深意上所面对的问题。
知乎内部有个算法机器人瓦力,目前的智能化程度已经很高,可以实时筛查并处理社区新生产内容中的不友善部分;结合用户的举报, 在 0.3 秒内识别判断该内容是否包含不友善,并做出相应处理;与用户“人机配合”,快速识别并处理“答非所问”等等。
不友善会影响社区的良性讨论氛围,典型的话语包括:
“你大概是失了智,或者被驴踢了?”
“请看重点,脑子是个好东西,希望你也有!”
“谁给你的勇气说这话,非蠢即坏说的就是你。”
这种相对直接的情绪语言已经可以被识别,瓦力在经过训练以后,可以自动识别不友善信息。
但AI的类人化水平还远不到让人害怕的程度,算法机器人的所有举动,都需要前期大量的学习和培训。
拿最基础的内容审核功能来说,包括瓦力在内的算法机器人,只能对发生过的、培训过的内容进行审核。但人类社会的道德标准是不恒定的,什么是好和坏,不少过去不道德的事情,可能会解禁,同样,也可能出现新的道德问题,比如未来人类和AI的关系。
这时候还是需要人工审核来做一个弥补,进一步训练算法机器人。
李大海介绍,“之前我们邀请近五万名知友参与‘有理由反对’功能的内测 ——反对理由设置为‘事实错误’‘答非所问’‘煽动情绪’和‘不解释’。用户在选择相应理由后,瓦力会学习用户的每一次选择。简单地说,知友们的专业度与判断力,在瓦力的作用下得到了极大限度的延伸和扩展。”
就目前来看,算法机器人很大程度上减轻了人工压力,帮助平台对回答进行审核,对回答质量进行评估,对不好的、不友善的回答进行处理。
从目前的发展趋势来看,算法机器人的“拟人化”程度还会优化。知乎最新探索的语义分析已经开始攻克“阴阳怪气地讥讽”问题。
李大海举了几个例子,比如:找这么多理由干嘛?还不是穷闹的;你赢了,高兴吗?日语学得这么盛气凌人实属不易,佩服佩服。
这种讽刺性回答也会损伤用户的提问积极性,不利于营造“良性讨论,好好说话”的社区氛围。但这个功能的难度会更高,不同关系的人之间,对同一个词语的理解是不一样的。陌生人骂垃圾,那是真的骂对方人品垃圾,关系亲密的人之间却不一定,那很可能是打情骂俏。
“知乎通过对庞大且高质量用户行为数据的分析、学习,可以对语义和用户关系这两方面进行更深层次的理解和建模,我们有机会突破这个一直困扰情感分析领域的前沿问题。我们认为这不但对中文互联网,甚至是世界互联网的讨论环境都是有促进作用的。”
这些技术优化对于改进用户的使用体验也是有帮助的,因为机器对用户的服务是全覆盖且无差别的,只要在同一套规则之下,机器只会比人工更加公平。
就像李大海分享中所说的:“技术可以用从未有过的效率去创造思维的连接。让每个个体的思考和经验,极速被分享,被筛选,被总结,被转化成为这个时代的知识。知识的生产方式和迭代效率会因为这样的连接发生质的改变 。”
文|铁林
来源|刺猬公社
1. 遵循行业规范,任何转载的稿件都会明确标注作者和来源;2. 的原创文章,请转载时务必注明文章作者和"来源: ",不尊重原创的行为 或将追究责任;3.作者投稿可能会经 编辑修改或补充。