今天咱们聊的,是微软。 不过这次的主角,是巨软—— 人工智能! 毕竟aigc,是目前逃不了的话题,既然逃不了,那我就要抱紧它。 先一起来回忆个事。 大概7年前,adobe公司,就是那个开发photoshop的,开始搞ai,整了一个黑科技,叫「Project VOCO」。 它的厉害之处。。你丢一段大概20分钟你的音频让它学。 它就能通过算法分析这个人的声音,然后复制声音,合成几乎以假乱真的任意声音。 当时现场效果相当炸裂,简直是音频编辑领域里的Photoshop啊!!!这已经出现aigc的雏形,Project VOCO使用了“声音克隆”的技术,听20分钟音频样本之后进行模仿,生成一个语音模型。 可惜直到今年,adobe还没发布。 结果。。。 被微软插队了。。。 调教了一款名叫「VALL-E」的ai工具。 并且性能更强,比起Project VOCO的20分钟,VALL-E只需3秒音频即可模仿人说话。 演示一下—— 首先我们找一段3秒钟的录音。 然后写上「Because we do not need it.」这句话,一按,就可得合成的语音。 如果你说话时有环境声,它也能复制。 比如这段语音。 同样我们输入「I think it's like you know um more convenient too.」这句话,一按,就能输出合成语音的同时保持环境声。 注意,前方高能! 它还支持不同情绪下的声音,比如愤怒、疲惫、厌恶等,它也能合成某个人的声音。 比如输入一段愤怒的语音。 再输入「We have to reduce the number of plastic bags.」这句,一按,就会出现可以表达愤怒的情绪合成语音。 问你怕没。。。 呃,这样一来。。。真就实现“把话强加到别人身上了”。至于原理,似乎已不那么重要了。 和其他AI新技术一样,VALL-E在安全伦理确实引人担忧。 但我在想,在好好利用的前提下,比如我想外婆了,把她在微信里的一些语音信息投喂给AI,就能每天听到她的声音,甚至能生成出一个可以实时和我对话的“外婆”了。 往远的想象,未来用GPT码字,stable diffusion生成画面,vall-e配音,是不是可以一个人一条龙完成一部小电影呢? |
|