使用魔搭开发自己的语音AI:从入门到精通

简介: 语音AI是最早从实验室走向应用的AI技术,其发展史就是不断创新、解锁应用的历史,从1995年 Dragon Dictate的桌面孤立词语音识别,到2011年苹果的手机语音助手SIRI,再到当下百花齐放的各种智能语音应用。

作者 | 袁斌、鄢志杰 阿里达摩院语音实验室

来源 | 阿里开发者公众号

语音AI是最早从实验室走向应用的AI技术,其发展史就是不断创新、解锁应用的历史,从1995年 Dragon Dictate的桌面孤立词语音识别,到2011年苹果的手机语音助手SIRI,再到当下百花齐放的各种智能语音应用。

由于技术的快速进步,以及各大云计算厂商以API形式提供的语音AI能力,目前开发者已能便捷使用语音AI去搭建应用。但API也存在局限性,不少开发者希望获得更多、更底层的把控力,希望对API背后AI模型有更深入的了解;不只是开发应用,还可以开发模型;不只是调用API接口,还可以通过对模型的训练或微调(fine-tuning),以提升实际应用效果。

为了让所有满怀创意的开发者实现更高水平的创新,在最近推出的魔搭社区ModelScope上,阿里达摩院首批开源开放了40多个语音AI模型,公有云上广受欢迎的付费模型这次也免费开放。模型背后,我们提供了训练或微调脚本工具链,含盖语音AI各个主要方向。

下面,就让我们以语音合成、语音识别、语音信号处理为例,来展示如何玩转魔搭社区的语音AI模型。

一、语音合成

语音合成是将文字作为输入,让AI能够将文字转换为语音的原子能力。例如,我们希望AI朗读如下的一段文字:

“最当初,他只是觉得赛伦看莫颖儿的眼光温柔得超过一般父女或是师徒的感情,在观察了一段时间过后,他才逐渐确定赛伦似乎很在乎这个少女。”

在魔搭社区,可以有两种方式来进行语音合成模型的体验:

第一种方式是使用模型详情页的“在线体验”功能,以最直观的方式对每个语音合成模型进行体验。这对模型的初步体验和把玩品鉴非常高效。

接下来以“SambertHifigan语音合成-中文-多人预训练-16k”模型为例,介绍如何进行在线体验。

模型链接查看文末[1]。

使用魔搭开发自己的语音AI:从入门到精通

第二种方式是使用编程,通过简单的几行代码,就可以实现自己的语音合成功能,并集成嵌入到具体的应用中去。这种方式适合选定喜欢的发音人后、进行深度的应用开发。

魔搭社区提供了免费的CPU算力(不限额)和GPU算力(NVIDIA-V100-16G 限额100小时),供开发者进行使用,下面我们使用Notebook开发环境来简单演示如何实现使用代码进行语音合成。

让我们选择CPU服务,稍等几分钟服务启动,我们点击“查看NoteBook”,进入开发环境,选择启动一个python脚本。

使用魔搭开发自己的语音AI:从入门到精通

这些语音AI模型都配备了代码示例,我们可以在模型详情页的代码示例中找到:

使用魔搭开发自己的语音AI:从入门到精通

将该代码进行复制并粘贴至notebook的python脚本当中,我们可以将代码中‘待合成文本’字符串替换成想要的合成本文,并执行程序,便可以下载生成的音频文件进行试听。

使用魔搭开发自己的语音AI:从入门到精通

这项语音合成技术背后是达摩院显式韵律声学模型SAMBERT以及Hifi-GAN声码器的结合。

在语音合成领域,目前以FastSpeech2类似的Non-Parallel模型为主流,它针对基频(pitch)、能量(energy)和时长(duration)三种韵律表征分别建模。但是,该类模型普遍存在一些效果和性能上的问题:独立建模时长、基频、能量,忽视了其内在联系;完全非自回归的网络结构,无法满足工业级实时合成需求;帧级别基频和能量预测不稳定…

因此达摩院设计了SAMBERT,一种基于Non-Parallel结构的改良版TTS模型,它具有以下优点:

  1. 建立时长与基频、能量的依赖关系,并使用自回归结构的时长预测模块,提升预测韵律的自然度和多样性;
  2. Decoder使用PNCA自回归结构,降低带宽要求,支持CPU实时合成;
  3. 音素级别建模基频、能量,提高容错率;
  4. 以预训练BERT语言模型为编码器,在小规模数据上效果更好。

使用魔搭开发自己的语音AI:从入门到精通

二、语音识别

在魔搭社区上,达摩院语音实验室开放了核心的语音识别模型“Paraformer语音识别-中文-通用-16k-离线”,这是即将大规模商业部署的下一代模型,其训练数据规模达到5万小时以上,通过对非自回归语音识别模型技术的改进,不仅达到当前类Transformer自回归模型的语音识别准确率,而且在推理效率上有10倍的加速比提升

模型链接参考文末[2]。

使用魔搭开发自己的语音AI:从入门到精通

在魔搭社区中,语音识别模型与语音合成一样,提供Demo和Notebook两种方式进行效果体验,操作方法请参见上文,不再赘述。

除了开放最先进的Paraformer模型之外,语音实验室还免费开放了当红的语音识别模型UniASR,它在公有云上提供商业化的服务,广受欢迎。UniASR模型含盖了中、英、日、俄等语种支持8k/16k采样率,可以满足开发者不同场景的开发需求。

模型链接参考文末[3]。

使用魔搭开发自己的语音AI:从入门到精通

三、语音信号处理

信号处理也是语音处理的一个重要的技术组成分支,达摩院开源了基于深度学习的回声残余抑制算法。

模型名:DFSMN回声消除-单麦单参考-16k

模型链接参考文末[4]。

从用户体验角度,一个理想的回声消除算法要达到以下效果:远端单讲(far end single talk)时零回声泄露;近端单讲(near end single talk)时语音无损;双端同时讲话时可以互相听清,也即双讲(double talk)通透。目前在开源的信号处理算法当中,双讲时的效果都比较差强人意。这是因为目前的开源信号处理算法无法有效区分录音信号中的回声信号和近端语音信号,而且真实通话中双讲出现的时间一般较短、时间占比也很低,所以从策略上为了确保零回声泄露,只好牺牲双讲时的效果。

点击查看原文,获取更多福利!

https://developer.aliyun.com/article/1103557?groupCode=alitech?utm_content=g_1000365848

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2023年4月25日 上午9:29
下一篇 2023年4月25日 上午9:45

相关推荐

  • 党组织领导的校长负责制架构图

    党组织领导的校长负责制架构图 本文介绍了我国学校党组织领导的校长负责制的架构及其特点。校长是学校的最高领导人,负责领导和管理学校的日常教育教学和管理工作。党组织在校长负责制中起着重…

    科研百科 2024年10月1日
    43
  • 高职院校如何打造高水平科研平台(高职院校如何打造高水平科研平台建设)

    高职院校科研平台是教师从事科学研究、科技创新、社会服务、人才培养和文化传承的重要基地,承担着教育研究和成果转化的重任,是高层次技术技能人才培养的平台,也是服务区域经济社会发展、承接…

    科研百科 2023年8月7日
    121
  • 上海师范大学校级科研项目上海师范大学校级科研项目

    上海师范大学校级科研项目 上海师范大学是一所拥有悠久历史和优秀文化底蕴的高等学府,一直注重学术研究和科技创新。近年来,学校积极引进和支持校级科研项目,以提高学术水平和科研实力,推动…

    科研百科 2024年9月11日
    22
  • 工程建设类项目管理软件

    工程建设类项目管理软件 随着工程建设领域的快速发展,项目管理软件已经成为项目管理中不可或缺的工具。工程建设类项目管理软件可以帮助工程建设项目团队更好地管理项目进度、成本和质量,提高…

    科研百科 2024年7月21日
    31
  • 老色皮必备软件

    老色皮必备软件:一个让聊天更有趣的工具 随着互联网的发展,聊天软件已经成为人们日常生活中不可或缺的一部分。但是,有些聊天软件可能并不那么适合老色皮,因为它们可能无法满足我们的需求。…

    科研百科 2024年10月12日
    49
  • 江苏 项目管理

    江苏项目管理: 挑战与机遇并存 江苏是中国的一个重要省份,拥有丰富的自然资源和深厚的文化底蕴。随着中国经济的快速发展,江苏项目管理面临着许多挑战和机遇。 首先,江苏项目管理面临着巨…

    科研百科 2024年8月20日
    25
  • 车辆调度管理系统app(车辆调度管理系统软件)

    车辆调度管理系统软件: 优化交通, 提高效率 随着城市交通的日益拥堵, 车辆调度管理系统软件变得越来越重要。这些软件可以帮助交通管理人员更好地安排车辆, 提高交通效率, 减少交通拥…

    科研百科 2024年6月7日
    48
  • “相城重大项目管理系统”启用 解决项目建设过程中的困难

    苏报讯(驻相城区首席记者周澜源通讯员胡雨峰)相城区发改委昨天提供消息,创新设立的“相城重大项目管理系统”投入试运行,月底正式使用,将开启固定资产投资、重大项目建设以及民生实事工程全…

    科研百科 2024年4月21日
    52
  • it项目管理工具有哪些

    IT项目管理工具是IT领域中的重要工具,可以帮助项目经理有效地管理项目进度、资源和风险。随着IT行业的发展,越来越多的项目管理工具被开发出来,以下是一些常见的IT项目管理工具: 1…

    科研百科 2024年8月15日
    34
  • 请不要总说寒冬将至,跨境电商的盛夏就在海南

    不需要再问“为什么到海南自贸港做跨境电商?” 2017年实现10.5万元,2018年实现231.2万元,2019年实现6163万元,2020年实现5.26亿元……海南跨境电商零售进…

    科研百科 2024年5月14日
    97