喜马拉雅论文再被ICASSP2022收录受邀在世界顶级学术会议展示新AI

2022-02-16 15:53:04 来源: 中国网 阅读量:6519   

最近几天,由国际音频顶级会议ICASSP联合阿里巴巴发起的ICASSP 2022多通道多方会议转录挑战赛落下帷幕,喜马拉雅智能语音实验室和中国科学技术大学合作,在说话人日志赛道获得第三名同时,相关论文已经被ICASSP 2022收录,并受邀于今年5月份在新加坡举办的线上/线下会议中进行展示,这是今年喜马拉雅的第二项研究技术成果得到ICASSP 2022的认可

此前,喜马拉雅自研的跨语言语音合成创新技术论文有关跨语言语音合成创新技术的论文已被ICASSP 2022录用ICASSP是由IEEE主办的在信号处理及其应用方面的顶级会议,在国际上享有盛誉并具有广泛的学术影响力今年是ICASSP的第47届会议,会议主题为以人为本的信号处理

而M2MeT挑战赛是ICASSP2022信号处理大挑战之一,包括说话人日志和多说话人语音识别两个赛道,旨在进一步促进该领域的深入研究喜马拉雅和中国科学技术大学合作在说话人日志赛道取得了4.05% 的日志错误率结果,名列第三位 第一,第二名分别由昆山杜克大学的李明教授团队和腾讯—香港中文大学团队获得

说话人日志技术,也称说话人分段聚类,通过记录多说话人音频数据上属于特定说话人的语音事件来解决谁在什么时候说话的问题,比如在语音聊天室场景中,可以告诉开会者当前谁在说话同时,该技术也在其他相关的语音处理技术中扮演着重要角色,比如会议转写的语音识别,或者为语音分离,VAD等其他语音技术提供关键的先验信息

会议场景是语音技术应用中最有价值,同时也是最具挑战性的场景之一因为这样的场景包含了丰富的讲话风格和复杂的声学条件,需要考虑到重叠语音,数量未知的说话人,大型会议室中的远场信号,噪音和混响等挑战而此次的M2MeT挑战赛便聚焦中文会议数据,对参赛团队提出了挑战

为了提高日志准确率,喜马拉雅和中国科学技术大学合作研发的系统,在语音的预处理上,首先使用麦克阵列技术对信号进行降噪,降混响,使得信号相对纯净,之后使用基于深度学习的声纹模型和谱聚类方法,对多人远场数据进行初步处理,并使用多通道标签融合技术对不同通道的结果进行融合,进一步提升准确率。

由于在挑战赛的会议场景中,多人同时说话的比例达到30~40%,传统聚类方法在该场景下会产生极高的漏判错误,因此喜马拉雅创新研发的系统还使用target—speakerVAD将聚类问题转化为多标签问题处理,并使用神经网络进行建模和训练在采用多种数据增强和后处理策略后,成功将DER由基线的15.6%降低到4.05%,基本达到了实用要求

喜马拉雅已在AI语音技术领域潜心钻研多年,并在内部专门成立了喜马拉雅智能语音实验室这一核心部门,长期专注于语音合成,识别,语音信号处理,编解码以及智能音效的研究和开发,而这次说话人日志技术的研究成果便来自于这一部门目前,喜马拉雅已经在研发类似会议场景的多人同时会议转写项目,其中说话人日志解决了谁在什么时候说话的问题,大幅度提升了撰写效果未来,喜马拉雅的说话人日志技术,也将可能被应用到更多场景中,比如语音聊天室,告诉参与者当前谁在说话,又比如喜马拉雅的AI文稿,说话人日志技术通过提供说话人的信息,有利于进一步提高AI文稿的准确率

除了说话人日志,喜马拉雅的TTS技术也处于行业前列,并已经广泛被运用于评书,新闻,小说等多种内容的制作中,正助力喜马拉雅在现有的UGC + PGC + PUGC内容生态之外,进一步拓展AIGC的可能性。。

2021年,喜马拉雅通过将自主设计单独的韵律提取模块融入到 HiTTS 技术框架,完美复现了单田芳的声音,目前已用单田芳的AI合成音上线了超过80张的单田芳声音重现专辑,其中,《毛氏三兄弟》和历史类作品的声音完播率远超过普通人声作品,为未来出版物大量有声化提供了新的解决方案此前喜马拉雅被ICASSP 2022S收录的自研跨语言语音合成技术,未来将可能让我们听到单田芳先生的声音来播讲英文内容同时,2021年,还有新京报,环球时报,潇湘晨报,时代周报,海外网,刺猬公社等众多主流媒体入驻喜马拉雅,借助喜马拉雅TTS技术加速制作新闻类音频节目,让听众有了更多的渠道听到更权威的新闻

未来,喜马拉雅将持续投入语音技术的研发升级,不断创新和突破,进一步打开对于声音的想象,让技术加持声音,让声音服务生活。灼识咨询资料显示,上半年,喜马拉雅移动端用户共花费8478亿分钟收听音频内容,约占中国所有在线音频平台移动端收听总时长的70.9%。

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

精选 导读

大摩:苹果产量或超预期增长,预计Q1业绩有“惊喜”

摩根士丹利分析师KatyHuberty指出,苹果本季度iPhone产量可能超预期增长,因为交货周期正在下降到“更正常的水平”。该分析师预计苹...

发布时间: 2021-12-23 17:04
行情   2021-12-23

中金:维持石四药集团跑赢行业评级目标价5.8港元

中金发布研究报告称,维持石四药集团“跑赢行业”评级,保持2021/22年归母净利润预测7.9/11.64亿元不变,目标价5.8港元。报告中称...

发布时间: 2021-12-23 17:03
行情   2021-12-23

实探中装建设元宇宙合作方鸿蒙时代:与华为无关已搬离注册地

12月22日,深交所对中装建设发布关注函,要求说明公司是否存在“楼宇智能大数据信息处理、AI可视化、元宇宙应用、智能建造系统、区块链等技术”...

发布时间: 2021-12-23 17:02
行情   2021-12-23

“疫”线女将:眼里有光心中有爱

“疫”线女将:眼里有光心中有爱题:“疫”线女将:眼里有光心中有爱曾灯光璀璨、游人如织的边陲小城因新冠疫情的再次暴发按下“暂停键”。内蒙古自治...

发布时间: 2021-12-23 16:48
要闻   2021-12-23

联通网络智能运维产品研发招标:华为、中软等11家企业入围

中国联通日前正式公布网络智能运维产品研发招标结果,华为、中软、软通动力、亚信科技等11家企业入围。传统网络故障的被动处理方式,从故障感知到信...

发布时间: 2021-12-23 16:35
酷玩   2021-12-23

热点 推荐

小米12Pro自研智能动态刷新率演示视频公布:支持新技能“滑动变速”,更

今日上午,小米手机官方表示,小米自研智能动态刷新率,是第二代低功耗2K屏幕的创新体验,第一次让小米12Pro拥有了滑动变速的新技能。小米表示...

发布时间: 2021-12-23 16:31
酷玩   2021-12-23

增速惊人!鸿蒙用户量半年突破2.2亿

C114讯12月23日下午消息在今日举办的华为动机旗舰新品发布会上,华为常务董事、消费者BGCEO、智能汽车解决方案BUCEO余承东公布了鸿...

发布时间: 2021-12-23 16:26
酷玩   2021-12-23

用户群聊从线上走到线下他趣成年轻群体社交困境破局者

伴随当下工作和生活节奏越来越紧凑,婚恋、交友等社交需求逐渐成为年轻人的刚性需求。为满足日益提升的社交需求,他趣用户从线上延伸到线下,通过组织...

发布时间: 2021-12-23 14:59
机器人   2021-12-23

京东会展云“云上服贸会”项目入选中国信通院“2021年数字孪生城市典型案

近日,2022中国信通院ICT+深度观察报告会隆重举办,京东会展云技术支持的中国国际服务贸易交易会数字平台项目入选“2021年数字孪生城市典...

发布时间: 2021-12-23 14:56
机器人   2021-12-23

华为Mate9手机推送鸿蒙HarmonyOS2.0.0.140:新增桌面

华为Mate9手机开始推送鸿蒙HarmonyOS2.0.0.140更新。更新包1优化了音量等基础体验,并新增了桌面图标放大功能。更新包2修复...

发布时间: 2021-12-23 14:41
机器人   2021-12-23
bd9