您现在的位置：首页 > 电子资讯 >业界动态 > 基于语音芯片和单片机的语音播报工作原理

基于语音芯片和单片机的语音播报工作原理

2017-04-01

类别：业界动态

420

拍明

集成电路是推动科技发展一个不可或缺的重要部件。语音芯片，顾名思义就是可以存储控制播放语音的IC。

芯片(chip)就是半导体元件产品的统称。是集成电路(IC, integrated circuit)的载体，由晶圆分割而成。

硅片是一块很小的硅，内含集成电路，它是电脑或者其他电子设备的一部分。

就是集成电路，泛指所有的电子元器件，是在硅板上集合多种电子元器件实现某种特定功能的电路模块。它是电子设备中最重要的部分，承担着运算和存储的功能。集成电路的应用范围覆盖了军工、民用的几乎所有的电子设备。

语音芯片

语音芯片是芯片内的一部分，语音IC，英文名叫:Speech IC ，与MCU配合则叫：Speechmcu 。中文又被叫做声音芯片、音乐芯片。定义为：芯片内置少量存储空间，1Mbit--4Mbit，存储时间40-160秒的，可以由按键控制或MCU控制的，直接发声的集成电路芯片。

语音基础知识

编辑

什么是语音芯片?

语音芯片定义：将语音信号通过采样转化为数字，存储在IC的ROM中，再通过电路将ROM中的数字还原成语音信号。

根据语音芯片的输出方式分为两大类，一种是PWM输出方式，一种是DAC输出方式，PWM输出音量不可连续可调，不能接普通功放，目前市面上大多数语音芯片是PWM输出方式。另外一种是DAC经内部EQ放大，该语音芯片声音连续可调，可数字控制调节，可外接功放。

普通语音芯片放音功能实质上是一个DAC过程，而ADC过程资料是由电脑完成，其中包括对语音信号的采样、压缩、EQ等处理。

录音芯片包括ADC和DAC两个过程，都是由芯片本身完成的，包括语音数据的采集、分析、压缩、存储、播放等步骤。

ADC=Analog Digital Change 模数转换

DAC= Digital Analog Change 数模转换

音质的优劣取决于ADC和DAC位数的多少。例如：20秒到 340秒,最低从10秒到340秒.语音芯片直观的从名称上来看,就是与语音有关的芯片,语音就是存储的电子声音,凡是能发出声音的芯片,就是语音芯片,俗称声音芯片,英文准确些来说应该是Voice IC. 　在语音芯片的大家庭中,根据声音的类型不同可分为(Speech IC)和(Music IC)两种.这儿应该算是语音芯片专业的区分方法.

语音芯片的生产方式

掩膜生产。掩膜生产通俗的说就是先将声音烧到芯片里，然后再进行封装，一般有量的要求。

otp生产。所谓otp的意思是指的一次性烧录。先把芯片封装好，再借用软件烧进去声音。

语音芯片有根据IC本身的物理结构的多个通道(同时发出多个通道的声音)可分为多种类型:

一, 单通道的：

1, 单通道的语音IC(Speech IC)(这种语音芯片不支持音乐IC音乐存储方式); 常见的语音IC是单通道的语音芯片,DKC020-OTP20秒和DKA010动物叫声是最典型的单通道语音芯片了,

2, 单通道的音乐IC(Music IC),同一单位时间内只能发出一种音乐的音乐IC, 电子声音文件是只有一个通道的.Mid后缀文件.

常说的单音片,是一种最基本的音乐IC,由一定时间内音符输出的多少,决定了单音片的效果,有64音符多,128音符等等. 单音片应用场合广,价格极其低廉,最常见的有单音片有生日快乐贺卡单音片.典型的有DK20S等

严格的说,单通道的音乐IC和单音片的两者结构是不相同的

二, 2通道：

1, 2通道的语音IC, 2通道和多通道的语音芯片,实际应用中语音播放时一般会按规定固定在某一通道内进行声音的播放(等同于单通道),但是这类产品比单通道的语音IC(Speech ic)成本要高,价格会高些,语音芯片厂家在设计时为了平衡产品价格和应用,一般来说,功能支持和声音效果方面都会做得更完美一些.

这种结构也许是因为产品和方案实际应用领域和价格所决定的, 语音芯片输出一般都是单通道的声音输出,支持立体声的产品很少, 要高端一些的产品就要选MP3主控芯片之类的方案了

2, 2通道的音乐芯片, 通俗叫法是双音片(Music With Dual Tone IC),顾名思义,同一单位时间内二个通道都可以发出音乐的音乐IC. 电子声音源文件一般为.Mid的二通道文件.常见的圣诞系列音乐IC如:.

这里得多补充两句,市面上还有一个叫melody的音乐芯片,她是个什么定义呢?简单的来说,比单音片的效果要好比和弦音乐芯片的效果要差的一种音乐芯片,所以双音片也有被叫成是melody音乐芯片,melody结构应该来说是一种更高级的单音片,或者可以说是二倍效果的单音片.

基于语音芯片和单片机的语音播报工作原理.jpg

三, 4通道,8通道或以上：

三通道以上的声音.又称为和弦音乐.常说的4和弦音乐IC就是指4通道的音乐IC,例如DKC040...

一般多通道的语音芯片都是同时支持音乐IC(Music IC)和语音IC(Speech IC)功能的.

(a)“语音芯片”介绍：

(1)语音信号的量化

采样率(f)、位数(n)、波特率(T)

采样：将语音模拟信号转化成数字信号。

采样率：每秒采样的个数(byte)。

波特率：每秒钟采样的位数(bit)。波特率直接决定音质。Bps: bit per second

采样位数指在二进制条件下的位数。一般在没有特别说明的情况下，声音的采样位数指8位，由00H--FFH，静音定为80H。

(2)采样率

奈奎斯特抽样定理(Nyquist Law)：要从抽样信号中无失真地恢复原信号，抽样频率应大于2倍信号最高频率。抽样频率小于2倍频谱最高频率时，信号的频谱有混叠。抽样频率大于2倍频谱最高频率时，信号的频谱无混叠。

嗓音的频带宽度为20～20K HZ左右，普通的声音大概在3KHZ以下。所以，一般CD取的音质为44.1K和16bit，如果碰到某些特别的声音，如乐器，音质也有用48K和24bit的情况，但不是主流。

一般在我们处理针对普通语音IC的时候，采样率最高达到16K就够了、说话声一般取8K(如电话音质)、6K左右。低于6K效果比较差。而DKC系列语音芯片采样可以做到22K。

在应用单片机的过程中，采样越高，定时器中断速度越快，会影响到其他信号的监控和检测，所以要综合考虑。

(3)语音压缩技术。

由于语音数据量庞大，对语音数据进行有效压缩是很必要的，能够使我们在有限的ROM空间里录入更多的语音内容。有以下几种方式：

语音分段：将语音中可以重复的部分截取出来，通过排列组合将内容完整地回放出来。

语音采样：一般我们使用的喇叭频响曲线在中频部分，较少用到高频，所以，在喇叭音质可以接受的情况下，适当降低采样频率，达到压缩效果，这种过程是不可逆的，无法恢复原貌，叫有损压缩。

数学压缩：主要是针对采样位数进行压缩，这种方式也是有损压缩。例如，我们经常采用的ADPCM压缩格式，是将语音数据从16bit压缩到4bit，压缩率是4倍。MP3是对数据流进行压缩，涉及到数据预测问题，它的波特率压缩倍率为10倍左右。

通常，以上几种压缩方式都是综合起来使用的。

(4)常用语音格式

PCM格式： Pulse Code Modulation 脉冲编码调制，它将声音模拟信号采样后得到量化后的语音数据，是最基本最原始的一种语音格式。同它极为类似的还有RAW格式和SND格式。它们都是纯语音格式。

WAV格式：Wave Audio Files 是微软公司开发的一种声音文件格式，也叫波形声音文件，被Windows平台及其应用程序广泛支持。WAV格式支持许多压缩算法，支持多种音频位数、采样频率和声道，但WAV格式对存储空间需求太大不便于交流和传播。WAV文件里面存放的每一块数据都有自己独立的标识，通过这些标识可以告诉用户究竟这是什么数据，这些数据包括采样频率和位数，单声道(mono)还是立体声(stero)等。

ADPCM格式：是利用对过去的几个抽样值来预测当前输入的样值，并使其具有自适应的预测功能与实际检测值进行比较，随时对测得的差值自动进行量化级差的处理，使之始终保持与信号同步变化。它适用于语音变化率适中的情况，而且声音回放过程简短。它的优点是对于人声的处理比较逼真，一般达到90%以上，已广泛地应用于电话通信领域。

MP3格式： Moving Picture Experts Group Audio Layer III，简称为MP3。它是利用 MPEG Audio Layer 3 的技术，采取了名为“感官编码技术”的编码算法：编码时先对音频文件进行频谱分析，然后用过滤器滤掉噪音电平，接着通过量化的方式将剩下的每一位打散排列，最后形成具有较高压缩比的mp3文件，并使压缩后的文件在回放时能够达到较接近原音源的声音效果。它的实质是vbr(Variant Bitrate 可变波特率)可以根据编码的内容动态地选择合适的波特率，因此编码的结果是在保证了音质的同时又照顾了文件的大小。

mp3压缩率10倍甚至12倍。是最初出现的一种高压缩率的语音格式。

Linear Scale格式：根据声音的变化率大小，把声音分成若干段，对每段用线性比例进行压缩，但是它的比例是可变的。

Logpcm格式：基本上对整个声音进行线性压缩，将最后若干位去掉。这种压缩方式在硬件上很容易实现，但音质比Linear Scale差一些，特别是音量较小声音比较细腻的情况下效果较差。主要用于pure speech方面。mid格式。mid格式的语音所占的空间比较狭小，有时短短20几秒的芯片就能装进去十多首mid格式的音乐.

(b)“音乐芯片”介绍：

(1)音乐的通道与音色：

包络(envelope)方波(patch) 通道(channel)

包络：合成音色的一部分，单位时间内音符输出的变化，常见有“ADSR”

方波：合成音色的一部分，单位时间内音符方波电流的变化。(另见三角波等)

通道：在同一时间内，芯片输出的音符个数，即“单音乐器”的个数。

PCT：模拟音色的一种，通过采样256个点的乐器声音来模拟出各个音符的音高。(音色柔和，占空间小，但不够真实)

FULL WAVE：通过采集一种乐器声音来模拟各个音符音高。(乐器声真实，但占用空间大，且采集音色音质要求高)

(2)音乐的压缩：

由于音乐数据量庞大，对音乐数据进行有效压缩是很必要的，能够使我们在有限的ROM空间里录入更多的音乐内容。有以下几种方式：

音乐分段：将音乐中可以重复的部分截取出来，通过排列组合将内容完整地回放出来。

音色：根据音乐的丰满程度、需求程度，来确定Full wave，PCT、dual tone的选择，各个音色占用空间不懂，音色质量也不同。

数学压缩：主要是针对采样的音色(Full wave)进行压缩，这种方式也是有损压缩，对于要采集的音色进行降采样、处理等减小采集音色的大小(同语音类的修音)。

语音芯片根据集成电路类型来分,凡是与声音有关系的集成电路被统称为语音芯片(又称语音IC,这里应该叫成Voice IC),但是在语音芯片的大类型中,又被分为语音IC(这里应该叫成Speech IC),音乐IC(这里应该叫成Music IC)两种.

(a)现在市场上常见语音芯片分类：

短时间芯片有10秒，20秒，40秒，80秒,170秒的芯片，

常用的模块有：6分钟，8分钟，16分钟，1小时的等。

通用的芯片有：3秒到340秒

(b)现在市场上常见音乐芯片分类：

单音片：是一种最基本的音乐IC,是音乐单通道的,同一时间音符输出的多少,决定了单音片的效果,有70多,100多音符等等.

音乐通道：2通道、3通道、4通道、8通道、12通道等更多。。。

控制方式：按键控制，一线串口控制，二线串口控制，三线串口控制，并口控制，单片机控制，等等。

(c)现行的语音芯片主要是在广州和深圳两地研发并且生产，主要的语音芯片大概分20秒、40秒、80秒、170秒等等，与传统的芯片相比，这些ic多数采用的是8脚封装，使操作变得更加简单了。

单片机(Microcontrollers)是一种集成电路芯片，是采用超大规模集成电路技术把具有数据处理能力的中央处理器CPU、随机存储器RAM、只读存储器ROM、多种I/O口和中断系统、定时器/计数器等功能(可能还包括显示驱动电路、脉宽调制电路、模拟多路转换器、A/D转换器等电路)集成到一块硅片上构成的一个小而完善的微型计算机系统，在工业控制领域广泛应用。从上世纪80年代，由当时的4位、8位单片机，发展到现在的300M的高速单片机。

单片机又称单片微控制器,它不是完成某一个逻辑功能的芯片,而是把一个计算机系统集成到一个芯片上。相当于一个微型的计算机，和计算机相比，单片机只缺少了I/O设备。概括的讲：一块芯片就成了一台计算机。它的体积小、质量轻、价格便宜、为学习、应用和开发提供了便利条件。同时，学习使用单片机是了解计算机原理与结构的最佳选择。

单片机的使用领域已十分广泛，如智能仪表、实时工控、通讯设备、导航系统、家用电器等。各种产品一旦用上了单片机，就能起到使产品升级换代的功效，常在产品名称前冠以形容词——“智能型”，如智能型洗衣机等[1] 。

应用分类

单片机(Microcontrollers)作为计算机发展的一个重要分支领域，根据发展情况，从不同角度，单片机大致可以分为通用型/专用型、总线型/非总线型及工控型/家电型。

通用型

这是按单片机(Microcontrollers)适用范围来区分的。例如，80C51式通用型单片机，它不是为某种专门用途设计的;专用型单片机是针对一类产品甚至某一个产品设计生产的，例如为了满足电子体温计的要求，在片内集成ADC接口等功能的温度测量控制电路。

总线型

单片机这是按单片机(Microcontrollers)是否提供并行总线来区分的。总线型单片机普遍设置有并行地址总线、数据总线、控制总线，这些引脚用以扩展并行外围器件都可通过串行口与单片机连接，另外，许多单片机已把所需要的外围器件及外设接口集成一片内，因此在许多情况下可以不要并行扩展总线，大大减省封装成本和芯片体积，这类单片机称为非总线型单片机。

控制型

这是按照单片机(Microcontrollers)大致应用的领域进行区分的。一般而言，工控型寻址范围大，运算能力强;用于家电的单片机多为专用型，通常是小封装、低价格，外围器件和外设接口集成度高。显然，上述分类并不是惟一的和严格的。例如，80C51类单片机既是通用型又是总线型，还可以作工控用。

以语音存储与自动播放系统为基础的语音播报记事器设计。该设计以ISD4004：语音芯片和AT89S52单片机为中心，很好地实现了语音存储与自动播放。

1 硬件设计原理

语音播报记事器的主要功能是实现语音存储与定时播放。要实现语音存储与定时播放的方法很多，可供选择的器件也很多。由于单片机等微控制器的出现和数字电路技术的发展，使得现在的语音存储与自动播放变得易于实现。本设计采用单片机作为微控制器。单片机的字长由4位、8位、16位发展到32位。目前这几种字长的单片机同时存在于市场,用户可以根据不同的需要进行选择。本系统选用字长为8位的AT89S52单片机作为控制器。

目前可以与单片机配合使用的语音芯片有很多，其中不乏性能十分优越的语音芯片，美国ISD公司生产的ISD4004语音芯片就是它们中的一员。ISD4004芯片采用CMOS技术，内含振荡器、防混淆滤波器、平滑滤波器、音频放大器、自动静噪及高密度多电平闪烁存贮阵列。引脚包括电源、时钟、语音信号模拟输入/输出端、与MCU接口(SPI接口)几部分。芯片采用多电平直接模拟量存储技术，每个采样值直接存贮在片内闪烁存贮器中，因此能够非常真实、自然地再现语音。

ISD4004系列单片录放时间为8～16 min，采样频率可为4.0/5.3/6.4/8.0 kHz，频率越低，录放时间越长，而音质则有所下降。芯片设计基于所有操作必须由微控制器控制，操作命令可通过串行通信接口(SPI或Mi-crowire)送入。由于ISD4004的众多优点，本设计就采用它作为录放音器件。

系统外接时钟芯片PCF8563、矩阵键盘LED显示和E2PROM AT24C01。录音时为了改善语音质量，要提高输入端的信噪比，因此在系统的输入端采用三极管(9014)放大电路单端输入，系统的输出端经音频功率放大器LM386放大输出后驱动扬声器。整个系统的系统框图如图1所示。

2 硬件设计

2.1 语音输入与输出电路设计

语音信号经过驻极体话筒转化为的电信号很微弱，在送入语音芯片之前需要经过放大。这样做的目的是为了提高信号的信噪比，以达到更好的抑制噪声的目的。由于声电转换器件使用的是驻极体话筒，所以后级放大电路使用三极管作为放大器件即可满足要求。本设计中从语音芯片输出的语音信号很微弱，不能直接驱动扬声器，所以要在语音芯片和扬声器之间加上一个功率放大电路。功率放大电路使用美国国家半导体公司生产的音频功率放大器LM386并配合少许电容电阻构成。该功放电路的放大效果良好，噪音小，可以满足本设计的要求。

2.2 显示电路设计

本设计的显示部分使用LED数码管。为了提高LED显示的亮度，在本设计中，将a，b，c，d，e，f，g引脚分别串联300 Ω的电阻后接5 V电压即可。本设计采用软件查表方式输出。当系统没有录放音时，需要显示年、月、日、时、分、秒、星期等信息;当系统有录放音时，需要显示与录放音有关的信息。这样，整个系统一共需要15个数码管。为了节省单片机的I/O口，显示部分使用了74LS154，单片机与LED的接口采用动态接口。74LS154是4线16线译码器，用于将单片机的输出译码后作为LED的片选信号使用。

2.3 PCF8563接口电路设计

PCF8563是飞利浦公司生产的低功耗的CMOS实时时钟/日历芯片，是I2C总线接口器件。设计中，PCF8563用来提供时间和日历信息。当没有进行录音和放音操作时，本设计相当于一个万年历;当进行录音或放音时，PCF8563用来对每段录音或放音进行计时，所有的时间信息均通过LED数码管显示出来。由于PCF8563是漏极开路，所以必须要加5.1 kΩ的上拉电阻。PCF8563与AT89S52的接口电路设计如图2所示。

2.4 ISD4004接口电路设计

本设计使用ISD4004-16M型号的语音芯片。这款语音芯片可以录音16 min，它有一个端口为RAC端，RAC为行地址时钟端，每个RAC周期表示ISD存储器的操作进行了1行(ISD4004系列中的存贮器共2 400行)，所以RAC端的行地址数目与语音芯片中存储器的行数对应，即语音芯片存放的每段录音的初始与结束地址与惟一的RAC行地址数对应。所以只需将RAC端与单片机的计数端相连，仅记录RAC行地址数目即可实现整个录放操作，且单片机的计数器无需中断。根据以上的思想，设计ISD4004与单片机的接口电路如图3所示。

3 软件设计

本设计中的程序设计包括以下几个部分，即键盘处理程序、ISD4004放音驱动程序、ISD4004录音驱动程序、时间校正程序、录音子程序、放音子程序、播放时间设置子程序、播放选择程序、子程序设计。图4为主程序流程图。

4 系统测试

系统上电后15个数码管全亮大概3 s，以此检测数码管的好坏。之后数码管会出现年、月、日、星期、时、分、秒等信息。当按下录音键后，系统开始录音。录音时，数码管会显示“SAVE”字样，并会显示该段录音的时间信息;当确定键按下后，该语音段的录音结束，数码管重新显示时间信息。当按下放音键时，系统开始放音，这时数码管会显示“PLAY”字样，并会显示该段录音的时间信息。放音结束后数码管会回到时间显示界面。当按下时间校正键后，便可以对时间进行校正;当按下确定键后，时间校正结束。本系统可以录音15 min，可以录4段录音。当按下播放设置键后，就可以对每段录音的播放时间进行设置;当按下播放选择键后，就可以播放4段录音中的任意一段。

本系统在播放录音时会有少量的噪音，可能由以下原因造成：

(1)整个系统完全是手工焊制，线路之间存在干扰;

(2)ISD4004的数字地与模拟地没有分别走线，全部接到了一起，存在干扰;

(3)语音输入放大电路的放大倍数不够，噪声没有得到足够的抑制。

整个系统的设计合理，外围电路结构简单，方便调试;单片机余留有I/O口，方便系统的升级和扩展;单片机的所有程序均使用C-51进行编写，方便调试和阅读。整个系统工作稳定，操作方便。本设计的设计原理完全可以用在公共汽车上，作为语音报站器使用，也可以用在银行和医院等一些需要自动播报语音信息的公共场所。在本设计的基础上稍加扩充，就可以满足实际应用的需要。

责任编辑：Davia

【免责声明】

2、本文的引用仅供读者交流学习使用，不涉及商业目的。

3、本文内容仅代表作者观点，拍明芯城不对内容的准确性、可靠性或完整性提供明示或暗示的保证。读者阅读本文后做出的决定或行为，是基于自主意愿和独立判断做出的，请读者明确相关结果。

4、如需转载本方拥有版权的文章，请联系拍明芯城（marketing@iczoom.com）注明“转载原因”。未经允许私自转载拍明芯城将保留追究其法律责任的权利。

拍明芯城拥有对此声明的最终解释权。

上一篇：怎样对IC芯片进行检测,IC芯片进行检测的原理

下一篇：电容屏与电阻屏的区别以及最新IC触控技术

标签：语音芯片单片机