声振论坛

 找回密码
 我要加入

QQ登录

只需一步,快速开始

声振论坛 展示 声学噪声 声学理论 查看内容

比指纹、人脸更适合于远程身份认证的声纹识别技术

2017-1-24 18:38| 发布者: weixin| 查看: 1608| 评论: 0|来自: 声振论坛

摘要: 当今信息社会中,在国家安全、金融、司法等社会各个领域均需要个人身份验证。生物特征识别(Biometrics Authentification)技术是通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合,利用人体 ...
当今信息社会中,在国家安全、金融、司法等社会各个领域均需要个人身份验证。生物特征识别(Biometrics Authentification)技术是通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合,利用人体固有的生理特性(如指纹、人脸、虹膜、声音等)来进行个人身份的鉴定。

生物特征识别技术比传统的身份鉴定方法更具安全、保密和方便性,且具有不易遗忘、防伪性能好、不易伪造或被盗、随身“携带”和随时随地可用等优点。
[attach]81622[/attach]

各类认证技术比较

[attach]81623[/attach]

生物识别技术的内涵


生物识别技术未来市场规模巨大。市场研究机构PiraInternat-ional:近7年以来,生物识别技术的市场规模增长了12%;预计2014年,全球市场规模将达到75亿欧元。国际生物识别产业协会:在未来10年,大陆地区生物识别技术的市场规模将达到20亿美元。
[attach]81624[/attach]

不同形式的生物识别技术

[attach]81625[/attach]

生物识别技术比较


声纹具有唯一性。由于每个人的声音器官,诸如声带、口腔、鼻腔、舌、齿、唇、肺等,在发音时呈现千姿百态,抑或有着哪怕是微小的差异,以及年龄、性格、语言习惯等多种原因,再加上发音容量的大小不一,发音频率的不尽相同,因而导致这些器官发出的声音必然有着各自的特点,形成每个人独具一格的声纹(Voiceprint),可用语谱图观察出来。
[attach]81626[/attach]

语音信号的语谱(Sonogram)图分析:把和时序相关的傅里叶分析结果显示的图形称为语谱图(Sonogram,或者 Spectrogram ),它表示语音频谱随时间变化的三维图形。
[attach]81627[/attach]

Sonogram(Spectrogram:time,frequency,amplitude)

[attach]81628[/attach]


什么是“声纹识别”

  • 声纹识别(说话人识别),就是从某段语音中识别出说话人的身份的过程。
  • 与指纹类似,每个人说话过程中蕴涵的语音特征和发音习惯等也几乎是唯一的。


与“语音识别”的不同

  • “语音识别”是共性识别,判定所说的内容(说的什么)。
  • “声纹识别”是个性识别,判定说话人身份(是谁说的)。


声纹识别独特优势

  • 语音采集装置造价低廉,只需电话/手机或麦克风即可,无需特殊的设备。
  • 与指纹、人脸相比,声纹更适合于远程身份认证。
  • 声纹口令可动态变化。


声纹应用领域

(1) 声纹辨认
  • 刑侦破案、嫌疑人追踪
  • 情报过滤、反恐侦查、国防军事监听
  • 呼叫中心、个性化应用,等等


(2) 声纹确认
  • 金融证券交易、银行交易
  • 司法鉴定、法庭证据
  • 社区矫正
  • 声纹门禁
  • 智能手机、民用安全/娱乐/数码设备,等等


国内产业化进展

中科院声学所、清华大学、中国科技大学、厦门大学等科研机构和高等院校已研制成功各具特色的声纹识别系统。涌现出北京得意音通、厦门天聪公司等专业的声纹识别技术开发商。其中厦门天聪公司已开发出手机声纹锁、社区矫正声纹识别系统以及声纹动态口令。

声纹识别的分类

(1) 按识别任务分类
  • 声纹辨认(Identification)

[attach]81629[/attach]

  • 声纹确认(Verification)

[attach]81630[/attach]


(2) 按说话内容分类
  • 文本无关(Text-Independent)

不限定说什么文本
语种无关(Language-Independent)
语种相关(Language-Dependent)

  • 文本相关(Text-Dependent)

要求说特定的文本(与训练阶段一致,或现场提示)
必定是语种相关的

性能评价标准

  • 对于说话人辨认系统,其性能的评价标准主要是正确识别率。
  • 对于说话人确认(SV)系统,其最重要的两个指标是错误拒绝率(FRR)与错误接受率(FAR),前者是拒绝真实的说话人,又称“拒真率”,后者是接受冒认者而造成的错误,又称“认假率”,两者均与阈值的设定相关。
  • 等错率(EER):FRR与FAR相等。

[attach]81631[/attach]


本文根据厦门大学信息科学与技术学院洪青阳副教授的《声纹识别原理、技术及应用》讲义的部分内容编辑而成。

最新评论

QQ|小黑屋|Archiver|手机版|联系我们|声振论坛

GMT+8, 2024-11-25 15:23 , Processed in 0.034359 second(s), 16 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

返回顶部