近日,灵云语音合成SDK、译图智讯OCR SDK、易道博识SDK等66款人工智能类SDK已完成对鸿蒙5的适配。这些SDK覆盖语音合成与识别、光学字符识别、图像增强与处理等多个人工智能核心领域,有效帮助鸿蒙开发者快速集成多项先进AI能力,从而更专注于产品创新与用户体验提升。
• 灵云语音合成SDK
灵云语音合成SDK可将文本实时、准确地转换为自然、流畅的语音,并提供男声、女声、童声等多种合成音色,支持中文普通话、粤语、维语、英语、日语等60多种语言,并为用户提供定制化的语音合成服务。此外,该SDK的普通话识别准确率高达98%,支持普通话、英语、粤语、维吾尔语、客家话等多种语言,具备很强的口音普适性,用户还可自由定制垂直领域的语音识别模型,识别效果更精确。
灵云SDK已在移动应用、智能客服、智能家电、智能车载、机器人等众多领域广泛应用。在移动应用领域,服务京东商城、滴滴打车、高德地图等众多知名应用;在智能车载领域,实现智能车载输入法、智能语音导航、车辆控制等功能;在服务类机器人领域,助力众多机器人厂商实现智能交互与精准交流;在智能家居领域,让家电设备实现远场语音控制与人脸、声纹识别等智能化服务。
• 译图智讯OCR SDK
译图智讯OCR SDK基于移动端 学习框架,构建起覆盖个人证照识别、车辆证件识别、企业证照识别、图像分类、印章检测、通用识别等20个垂直场景的OCR产品矩阵,可以帮助应用快速、准确地从图像中提取文字信息,并将其转换为可供编辑和处理的文本格式。
通过轻量化的设计架构,译图智讯OCR SDK实现三大核心技术突破:1、极速响应:证卡识别响应速度最快可达200ms/张,复杂场景识别准确率达99.6%;2、超轻体量:SDK增量体积压缩至10MB以下,降低内存占用负载;3、智能适配:模块化架构支持功能组件自由组合,缩短定制开发周期。目前,译图智讯OCR SDK已在多家银行金融单位落地应用,为客户提供丰富、便捷、安全的产品体验。
• 微帧移动端超分增强SDK
该SDK基于AI图像优化算法,对视频进行实时智能超分辨率、色彩增强、画质修复处理,已被咪咕视频等应用集成,为用户提供了更高清的视频观看体验。
• 易道博识SDK、合合OCR SDK
两款SDK皆服务于中信证券、蜻蜓点金、广发基金、浦大喜奔、陆基金等头部金融理财应用,以及韵达快递等物流类应用,使用户体验更加便捷高效。
目前,已有即时通讯类、认证类、媒体类等21类伙伴的780余款SDK适配鸿蒙5,而随着近百款人工智能类SDK的全面适配,越来越多的鸿蒙应用将在语音交互、图像识别、视频增强等AI核心应用场景实现体验升级。期待在未来,随着更多鸿蒙开发者和合作伙伴加入鸿蒙生态,智能化能力边界将持续扩展,为多行业场景注入更高效、更智能的创新体验。