近日,第十九届全国人机语音通讯学术会议 (NCMMSC 2024) 在新疆乌鲁木齐成功举办。标贝科技携最新语音数据产品亮相大会,并在工业论坛发表关于大模型数据标注服务的主题演讲,和现场嘉宾探讨最前沿的语音领域数据方向以及语料库建设成果。
本次会议由中国计算机学会和中国中文信息学会联合主办,通过大会报告、教程报告、青年学者论坛、学生论坛、企业论坛、特殊议题讨论、产品和技术展示等活动形式,吸引了包括中国移动研究院、中国科学院自动化研究所、清华大学、西北工业大学、新疆大学等顶尖高校以及头部科技企业参与,共同探讨人机语音通讯技术的最新研究成果和应用前景。
会议期间,与会专家学者围绕人机语音通讯技术的发展趋势、关键技术、应用场景等方面展开了深入的交流与讨论。多位知名专家分别就语音识别、语音合成、情感计算、多模态交互等热点问题发表主题报告,展示了人机语音通讯技术的最新进展。
标贝科技数据事业部副总经理吴本谷受邀做了《大模型场景下的数据标注》主题演讲,分享了大模型产业中训练数据的发展趋势和机遇,以及标贝科技大模型数据平台最新能力和场景应用的实践经验。
在大模型场景下,高质量的数据集是模型成功的关键。吴本谷表示,语音大模型的研发过程中,数据集的质量直接决定了模型的训练效果与最终性能。标贝科技结合强大的AI技术研发能力,推出覆盖数据采标、管理、模型训练与优化、部署与应用全流程服务的AI数据平台,为AI算法提供必需的语料资源,以提升大模型的性能和应用效果。
作为一款成熟的人机协同标注工具平台,标贝科技AI数据平台集标注工具、预标注模型、项目管理为一体,具备智能化的多模态数据标注处理能力,智能化提升数据标注效率70%以上,高效解决AI落地场景多样性、复杂性的数据需求。
此外,标贝科技依托丰富的数据项目资源积累,形成了大批量自有产权的多模态预训练语料库和精调语料库。涵盖近百语种和方言,包括超10万小时语音识别数据库以及4000小时语音合成数据库,广泛应用于语音助手、智慧金融、智能客服、智能座舱、数字虚拟人等领域。
在本届 NCMMSC 中,标贝科技集中展示了语音数据服务领域的创新产品,包括两万小时音频数据、两千人语音大模型数据、多人情感合成数据、中英混多音色情感合成数据等,吸引了现场众多专家学者前来互动交流。
随着AI技术的快速发展,高质量数据集成为提升大模型性能不可或缺的基石。标贝科技将继续聚焦大模型数据解决方案,以技术创新为引擎,持续优化一站式数据大模型处理平台能力,通过精准、可靠的数据资源,为客户提供专业化、场景化、个性化的数据服务,加速推动大模型研发与落地应用。