概述 声纹识别也叫说话人识别,是指通过对说话人语音信号的处理分析,确认其是否在已有的话者集合中,以及进一步确认是谁。 声纹识别与语音识别有相似之处,都是通过提取语音信号的某些特征参数,建立相应的参考模板或模型,然后按照一定的规则进行判决。但由于二者识别目的的不同,在处理策略上有本质的差异。语音识别是为了提取语音信号中的语义信息,应尽可能将不同说话人的差异归一化;而声纹识别恰恰相反,力求将语音信号中的语义信息平均化,挖掘出包含在语音信号中的说话人个个性因素,强调不同人之间的特征差异。 发音器官和发音习惯的差异都以复杂的形式反映在语音信号波形中,使得每个人说话的语音带有强烈的个人色彩,同时由于生理结构和发音习惯的稳定,对同一个人来说,不同时期的语音其基本特征是保持不变的,这是说话人识别的客观保证。 说话人识别按其识别任务可以分为两类:说话人辨认(Speaker identification)和说话人确认(Speaker Verification) 说话人辨认(Speaker identification):用以判断某段语音是若干人中的那一个人所说,是“多选一”问题。可分为“闭集”和“开集”。“开集”假定待识别说话人可以在集合外,而闭集假定待识别说话人一定在集合内。闭集要与集合中的说话人个数一一匹配,开集还要做出拒绝。 说话人确认(Speaker Verification):用以确定某段语音是否是某个人所说,即“一对一”问题。 按照识别对象的不同,说话人识别还可分为三类:文本有关(text-dependent)、文本无关(text-independent)、文本提示型(text-prompted)。 文本有关(text-dependent):要求说话人的发音的关键词或关键句子作为训练文本,识别时按照相同内容发音。
文本无关(text-independent):不论是训练还是识别是都不规定说话内容,必须在自由的语音信号中找到能够表征说话人特征的方法。
文本提示型(text-prompted):每一次识别时,识别系统在一个规模很大的文本集合中选择提示文本,要求说话人按提示文本发音,防止说话人语音被盗用。
说话人识别的应用领域:身份鉴别、缉拿电话信道罪犯、法庭中根据电话录音确认身份、电话语音跟踪、防盗门开启功能;声音拨号、电话银行、电话购物、数据库访问、信息服务、语音e-mail、安全控制、计算机远程登录等等。 说话人识别的基本原理 主要包括两个阶段:训练阶段和识别阶段。训练阶段:根据话者集中每个说话人的训练语料,经特征提取,建立各说话人的模板或模型。识别阶段:有待识别的说话人的语音同样经特征提取,与系统训练时产生的模板或模型进行比较。说话人辨认中,取预测语音相似度最大的模型所对应的说话人作为识别结果。说话人确认中,通过判断测试音和所声称说话人的模型之间的相似度是否超过某一阈值来做出判断。 说话人识别系统的实现主要分为如下几个问题: 1、语音信号的预处理和特征提取,即提取能够表征说话人特征的参数 2、说话人模型的建立和模型参数的训练 3、测试语音与说话人模型的匹配计算 4、识别与判决策略。说话人辨认或者确认 目前研究中所采用的方法大致分为三类: 1、模板匹配法 训练过程中从每个说话人的训练语句中提取出特征矢量,形成特征矢量序列,选择方法优化,求取一个特征矢量的集合来有效的代表特征矢量序列,并将此集合作为参考模板。识别时,对带识别说话人的语音进行同样的特征序列提取,并且按照一定的规则与所有的参考模板进行比较。匹配往往通过特征矢量之间的距离测度来实现,以累计距离为匹配结果。最常用的模板匹配方法有动态时间规整(DTW)法和矢量量化(VQ)法。 2、概率模型法 从某人的一次或多次发音中提取出有效特征矢量,根据统计特性为其建立相应数学模型,使其能够有效的刻画出此说话人特征矢量在特征空间的分布规律。数学模型一般通过少量的模型参数来表示和存储。识别时,将测试语音的特征适量与表征说话人的数学模型进行匹配,从概率统计角度,计算得到测试语音与模型之间的相似度,并以此作为识别判决的一句。最常用的模型是HMM,很好的描述了平稳性和可变性,准确描述人的声道变化特性。 3、人工神经网络方法 类比与生物神经系统处理信息的方式,用大量的简单处理单元并行连接而构成一种独具特点的、复杂的信息处理网络。系统具有自组织、自学习能力,可以随着经验的积累而改善自身的性能。人工神经网络这些特性对说话人识别系统的实现有很大的帮助,可以用于更好的提取语音样本中所包含的说话人的个性特征。 说话人识别系统的性能指标: 系统的识别率(最重要指标,基础)、训练时间的长短、训练语料的数量、识别相应时间、话者集规模、说话方式要求、价格等 【转载地址】https://blog.csdn.net/Alla_Z/article/details/81010733
|