网易易盾9周年:在算法洪流中做那根定海针,历九弥坚

互联网
2025
09/23
16:50
分享
评论

当你点开手机、电脑、平板,在数字世界畅游,是否曾感觉到有危险在靠近?

上网冲浪正酣,在评论区、直播间可能遇到不良评论与图片;与AI助手聊天解闷,它也许会冒出一句价值观不正确的“雷人言语”;兴致勃勃地玩着游戏,却感觉每一次行动都被窥屏,甚至被外挂玩家抢占先机;门票、盲盒开售那一刻,掐点猛按却一秒失败,忍不住怀疑有人凭借黑科技抢先一步;这些不良行为与风险的背后,有一道我们看不到却又离不开的坚实防线——数字内容安全。

而筑牢这一战线的,正是一群站在幕后、默默守护的数字世界“守夜人”——网易易盾用AI为盾,日复一日地拦截风险、过滤恶意,从2016年至2025年坚持安全守护,正式迎来九周年。

九年一剑 磨炼四大核心能力

近二十余年,我国互联网行业进入高速发展时期,时代日新月异,市场瞬息万变。网易公司也经历了邮箱、新闻、游戏、电商、音乐等多业务的成长,沉淀了庞大、丰富的数字内容场景。

作为网易公司的安全团队,网易易盾在经过长期的内部锤炼和技术钻研后,于2016年正式对外输出能力与服务,至今已沉淀四大业务,为面向数字化业务的客户提供数字内容风控服务,助力客户安全合规以保障健康、稳定的发展。四大业务分别是:

内容安全:提供文本/图像/音频/视频内容的实时检测服务,覆盖涉黄暴政/低俗/广告/价值观/涉未成年/电商广告法等合规检测,以及图像质量分析(清晰度/美观度等)、人脸分析(颜值/年龄/性别等)等内容分析,助力内容合规、内容质量提升

业务安全:提供业务安全防护服务,包含反外挂、营销反作弊、设备指纹识别、风险实时监测、行为式验证码、身份信息核验等核心功能,从风险防控、业务合规、用户体验、运营效率等维度,为客户提供覆盖账号、交易、营销、运营全场景的智能业务风控解决方案

应用安全:提供应用安全防护服务,从开发至上线运营的全生命周期,提供可靠、优质的安全加固及应用合规检测服务

安全专家服务:为企业提供算法备案/大模型备案、安全培训课程安全语料、舆情报告、蓝军报告等安全专家服务

九年来,网易易盾已累计服务超10,000家知名企业客户,成为游戏竞技、AIGC、广电传媒金融、泛零售、娱乐社交等行业中众多大家熟知品牌或平台背后的安全力量。

九年来,网易易盾一直走在与黑灰产对抗的第一线。

游戏、泛零售甚至社交等多个行业,均有网络黑灰产屡屡作祟的困扰,例如游戏里的代充、打金,电商里的薅羊毛、评价刷单,网络社交中的杀猪盘等。网易易盾九年累计处理移动安全风险超2,400亿,每年打击团伙账号超5,000万,打击工作室设备数超1,000万,坚实地守护平台的经济利益、健康运营与用户的良好体验。

九年来,网易易盾也一直走在与不良信息对抗的第一线。

社交、游戏、广电传媒、泛零售等多个行业的各大在线平台,都有可能收到暴恐、色情等不良信息的侵扰,需要及时检测与处理。九年来,网易易盾累计检测数据量超50,000亿,相当于每秒处理一万多条信息,通过AI算法与人工协同,严守内容安全底线,确保用户免受不良信息的侵扰。

AI应用规范化易盾领跑AI安全能力迭代

随着AIGC行业在近两年兴起,已有超100家企业引入网易易盾的安全能力,让AI用得更放心、更安心。2025年,人工智能的浪潮更加汹涌澎湃,大模型从实验室走向千行百业,与AI有关的政策与应用迎来密集更新。

8月,《国务院关于深入实施“人工智能+”行动的意见》印发,推动AI加速落地六大领域——科学技术、产业发展、消费提质、民生福祉、治理能力、全球合作。9月1日,《人工智能生成合成内容标识办法》正式实施,要求所有AI生成内容必须打上水印标识,防范AI造假风险。 9月15日,在刚刚结束的2025年国家网络安全宣传周主论坛上,《人工智能安全治理框架》2.0版正式发布,结合人工智能技术发展和应用实践,跟踪风险变化,完善优化风险分类,研究风险分级,动态调整更新防范治理措施。

网易易盾总经理朱浩齐在对外分享中曾提到,作为安全行业的从业者,网易易盾团队深刻感受到:技术越先进,安全风险越高。以往有害内容多是人为制造,形态有限;而AI技术可批量制造现实中不存在的、令人匪夷所思的内容,给识别和处理带来巨大挑战。因此,早在2023年初,网易易盾就已踏入AIGC内容风控的新战场,迅速推出AIGC内容安全服务解决方案,并在2025年结合行业实践、政策持续迭代,推出适应新情势下的升级能力:大模型安全治理方面,网易易盾通过打造业内首个“内生安全+围栏防护”双维防御体系,让安全能力 融入AI血液。内生安全,让安全长于AI基因。从模型训练入手,对语料进行安全领域语料处理,杜绝暴力、偏见等“毒性知识”注入;加固安全质量,通过对抗样本攻击训练,提升模型抗诱导能力,阻断“越狱”指令;生成内容修正:实时矫正模型输出中的事实错误、价值观偏差,守好内容合规红线。

围栏防护,给AI应用穿上铠甲。贯穿产品上线与运营全程,产品上线时提供安全咨询与功能服务,如算法备案、智能验证、大模型备案、实名核验、安全标准制定、内容标识、投诉举报等;产品运营时确保内容合规,开展大模型横向评测、人工审核、安全问题代答等工作,同时构建安全生态,进行员工安全意识培训、舆情报告与接口防爬。二者结合全方位保障大模型内容安全。

此外,网易易盾还推出AI生成识别能力,采用 “显性标识识别 + 隐性标识识别” 双通道检测模式,覆盖图片、文档、点播音视频、点播音频等主流内容形态,实现从内容生成到传播的全链路合规管控,确保企业每一环操作都符合新政标准。

面向拥有多个大模型的企业,如手机厂商、国企等,网易易盾推出“大模型评测平台”,定期对大模型进行安全评测,生成详细的评测报告以及高效管理题库,帮助企业更好地管理和优化大模型的安全性能。

大模型赋能安全方面,网易易盾刚刚发布了CMA审核智能体(Content Moderation Agent),是继去年的安全大模型后,在智能审核领域又一里程碑式产品,破解人工审核成本高、效率低、精度不稳定的行业痛点。

以某交友平台为例,接入CMA后,全量审核用户资料、私聊文本,仅10%的存疑数据需人工二次确认,综合准确率达99.99%;某网文阅读网站用CMA审核文章评论,仅5%的数据需人工兜底,效率提升3倍的同时,成本降低了40%。当智能审核的效率不断提升,审核员终于能从 “疲劳战” 中解脱,专注于更有价值的风险研判;企业也能告别 “成本焦虑”,把资源投入到核心业务创新上。

探索与制定安全边界

“AI一天,人间一年”,AI技术发展日新月异,AI的许多使用方式在两三年前甚至未曾出现。因此,摆在行业面前共同的难题,并不是某一个点上有没有规则,而是整个AI合规治理体系也是“边走边建”,需要有对应的成熟监管路径和治理机制。

作为数字内容行业的 参与、推动者,网易易盾及早识别到了这一核心,并积极应对, 参与行业标准制定。

2025年,网易易盾参编国家标准《网络安全技术 生成式人工智能服务安全基本要求》(GB/T 45654-2025),规范大模型从训练到部署的安全流程,为行业提供了安全治理框架指引,该项标准将于2025年11月1日正式实施。

网易易盾参与编写《向未成年人提供生成式人工智能服务安全指引》,聚焦未成年人AI内容防护,围绕生成式人工智能服务的训练数据、模型开发、场景应用、服务运营等全生命周期,提出覆盖内容安全、数据安全、个人信息保护等方面的系统性安全管理要求。

通过这些实践,网易易盾也正在推动数字内容安全行业的新兴领域——AI治理从“黑箱”走向清晰,助力行业明确安全边界,平衡创新与合规。  

随着人工智能应用的不断深入,我们所接触的数字世界还在不断变化。迈向第十年,网易易盾除了持续坚守数字内容安全战线,不断精进能力,也始终坚信:安全不是简单的一刀切,而是去掉恶意、留存本真。我们守护的,不是应被隔绝的温室,而是一个多元、真实、有趣的数字世界。

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表 的观点和立场。

相关热点

相关推荐

1
3
Baidu
map