首页
首页> 网投网址大全 > 必赢100_达摩院秀新型AI语音合成技术:定制成本降低10倍,个人用户也能玩 >

必赢100_达摩院秀新型AI语音合成技术:定制成本降低10倍,个人用户也能玩

发布时间 : 2020-01-09 08:28:40 阅读量:2245

必赢100_达摩院秀新型AI语音合成技术:定制成本降低10倍,个人用户也能玩

必赢100,智东西 文 | lina

智东西7月9日消息,今天,阿里达摩院的三位技术大咖——达摩院机器智能技术事业部首席架构师王骏、达摩院语音实验室负责人鄢志杰、 达摩院资深算法专家雷鸣——对达摩院最新的ai技术进展进行了分享,包括基于机器视觉的人类行为识别跟踪技术、ai卫星遥感影像分析技术等等。

与此同时,阿里今天还宣布,其基于kan-tts的语音合成技术现在已经向b端客户开放商用,它能基于5大场景、提供34种不同声音,而且能够让企业与个人定制其专属“ai声音”,该技术目前已经用在了高德地图、天猫精灵、夸克浏览器等应用中。

▲达摩院机器智能技术事业部首席架构师王骏

在被问到达摩院机器智能技术事业部今年是否有营收预期时,王骏告诉智东西,当前机器智能技术事业部的价值在于“被集成”,更多的是将新技术放在阿里云上,让用户通过阿里云使用。他认为,当前ai技术作为单品产品形成销售价值还很早。

▲kan-tts语音合成效果现场展示,不仅有男、女、童声,还有粤语

▲达摩院语音实验室负责人鄢志杰

根据达摩院语音实验室负责人鄢志杰介绍,kan-tts(全称knowledge-aware neural tts)是阿里早在2017年就撰写过相关论文的语音合成技术,它深度融合了端到端tts和传统tts技术,用更低的成本、更短的数据录制周期,合成更像人类的语音。

kan-tts有以下几大特点:

1、深度融合了端到端tts和传统tts

2、基于不同领域深层knowledge

3、针对cpu部署的框架设计和效率优化

4、20多项关键算法改进

目前,阿里云已经能提供基于kan-tts的工业级语音合成服务,基于5大场景、提供34种不同声音,包括温柔的女声、沙哑的男声、稚嫩的童声等等。

而且,客户可以通过kan-tts定制自己的“专属ai声音”。

据阿里介绍,传统tts定制需要10个小时以上的数据录制和标注,其定制成本要百万以上,定制周期要半年以上。

而现在基于阿里的kan-tts技术,不仅可以让客户“专属ai声音”的成本降低10倍以上,其定制周期也能缩短3倍以上,只需要录制1小时有效数据,不到2个月就能完成。

除了b端用户之外,普通个人用户也可以使用这种ai定制专属声音的技术,只需要用手机录制10分钟的声音素材,就能得到不错的效果。

此外,达摩院机器智能技术事业部首席架构师王骏也介绍了达摩院在视觉ai方面的新进展,包括基于机器视觉的人类行为识别跟踪技术、ai卫星遥感影像分析技术等等。

通过达摩院的计算机视觉技术,机器能够在开放自然环境里,对视频中人类的行为进行识别和跟踪,比如它能识别并持续跟踪拳击比赛中两个选手的动作。而且,这种技术可以进行跨摄像头的全域跟踪。

王骏说,这种技术非常适用于新零售场景——因为它不仅能让ai识别人的属性,还能够知道人的行动轨迹,能让新零售商户知道你的目标用户是谁,同时了解目标用户的行动轨迹。

与此同时,王骏还展示了达摩院的ai卫星遥感影像分析技术。通过ai分析行卫星遥感影像,能够实现建筑、道路、水体、土地使用情况的动态常态监管、精准监管。

据阿里介绍,ai卫星遥感影像分析技术已经在淄博市5965平方公里土地上进行违章建筑和破坏森林等行为的识别,将传统的几个月的分析时间缩短至几分钟。

两年前的云栖大会上,马云用将近40分钟的时间详细讲述了阿里投资一千亿人民币成立的全球研究院——“达摩院”的想法。当天马云还提出了达摩院的三个原则:一定要活得比阿里久;至少要服务世界20亿人口;必须要解决人类未来的问题。

据介绍,达摩院当前人工智能技术研发的主力正是机器智能技术事业部,它的前身是阿里idst (institute of data science and technologies)。

当前,达摩院的办公室分布在四个国家、八个主要城市,是一个全球化的科研机构,从长期研究计划(如量子计算)到短期落地研究(如人工智能技术与产品)都有涉及。

达摩院语音实验室负责人鄢志杰表示,达摩院会把最先落地的、最好的ai技术都放在阿里云上——“阿里内部能用到什么,阿里云的客户就能拿到什么”。

虽然“达摩院”听起来非常高大上,但是通过这次的沟通交流,我们感受最深的一点就是,达摩院的科研并非“空中楼阁”,而是切切实实的以解决实际问题为导向,目前其研究成果以逐渐落地阿里各个业务线。

此外,在技术落地解决实际问题的过程中,无论是语音识别、机器翻译,还是机器视觉,阿里都在尝试综合应用多种技术来解决实际问题。

随机推荐