我是搞生物特征识别的,包括指纹识别、掌纹识别、容貌识别、虹膜识别、声纹识别等。给大家科普一下吧。
前面视频展示的是个体语音合成技术,它是在标准语音合成技术基础上加上个体声纹特征的技术。声纹特征识别技术是这种技术的基础。
所谓声纹特征就是声音中一种不变的声音频谱特征(pattern)或模式,它不是时域信号而是频谱模式,每个人不一样。就像指纹特征记录的不是指纹图像,而仅是几个纹路端点的坐标及端点类型。
找出某个个人的声音频谱特征不需要很长的样本,从20分钟的声音中能取得很完善的特征了。就像指纹,一小片指纹就能确定一个人了,只是拒认率略微高一点点而已(0.00015%)。而且声音样本与语言无关,甚至可以不是语言,你嗯嗯啊啊几声,都可以从中确定出你的声纹频谱特征。就像一面有特定缺口的锣,敲那里都可以确定它的发声模式。
有了频谱特征,把它叠加到合成的标准语音上,就可以得到特定个人的任何语音。简单的例子如合成乐器,利用各种乐器的频谱特征,就可以合成出钢琴、小提琴、二胡、笛子、鼓、锣等等各种声音。所以从你的中文语音样本得到的频谱特征,合成出你的英语语音,甚至你讲毛里求斯语的语音,一点也不神秘。
如果现阶段有人胆敢用adobe软件合成语音诈骗,很容易判定出它是合成的,因为它有太强的规律性,就像简单的电脑画与手工画的区别一样。将来有人自己开发一个软件,在合成过程中,模拟自然发音,加入一点点随机量,可能比较难以判定一点。道高一尺魔高一丈,普通骗子的伎俩逃不过专业人员的法眼的。