北京三维动画 上海建筑动画制作 杭州CG动画制作 天津建筑三维动画 沈阳建筑动画制作 西安建筑虚拟现实 宁波Flash动画制作 深圳卡通动画 天津企业专题片 杭州影视制作
发新话题
打印

[转帖]音频基础

[转帖]音频基础

  多媒体技术中一种重要媒体来自音频,包括语音、音响和音乐。音频的作用是直接通过讲话表达信息、制造某种效果和气氛、演奏音乐等。
  音频技术发展比较成熟,其商品化产品(如数字音响)已投入使用。音频技术主要包括数字化、语音处理、合成及识别等方面。音频数字化是目前比较成熟的技术,数字音响和多媒体声音卡都是利用这项技术设计的。数字音响由于采用了数字化音频,获得了非常理想的声响效果,迅速取代了传统模拟方式的音响。
  音频数字化就是将模拟的(连续的)声音波形数字化(离散化),以便利用数字计算机进行处理的过程,主要包括采样和量化两个方面。相应地,数字化音频的质量取决于采样频率和量化位数这两个重要参数。采样频率是对声音波形每秒钟进采样的次数。人耳听觉的频率上限在2OkHz左右,根据采样理论,为了保证声音不失真,采样频率应在4OkHz左右。经常使用的采样频率有11.025kHz、22.05kHz和44.lkHz等。采样频率越高,声音失真越小、音频数据量越大。量化数据位数(也称量化级)是每个采样点能够表示的数据范围,经常采用的有8位、12位和16位。例如,8位量化级表示每个采样点可以表示256个(0-255)不同量化值,而16位量化级则可表示65536个不同量化值。量化位数越高音质越好,数据量也越大。
  反映音频数字化质量的另一个因素是通道(或声道)个数。记录声音时,如果每次生成一个声波数据,称为单声道;每次生成二个声波数据,称为立体声(双声道),立体声更能反映人的听觉感受。
  除了上述因素外,数字化音频的质量还受其它一些因素(如扬声器的质量等)的影响。
  综上所述,声音数字化的采样频率和量化级越高,结果越接近原始声音,但记录数字声音所需存储空间也随之增加。可以用下面的公式估算声音数字化后每秒所需的存储量(假定不经压缩):
    存储量=(采样频率x量化位数)/8(字节数)
  若采用双声道录音,存储量再增加一倍。例如,数字激光唱盘(CD-DA,红皮书标准)的标准采样频率为44.lkHz,量化位数为16位立体声,可以几乎无失真地播出频率高达22kHz的声音,这也是人类所能听到的最高频率声音。激光唱盘一分钟音乐需要的存储量为:
     44.1X1000Xl6X2X60/8=10,584,000(字节)
  数字音频数据的获取可以通过多种途径,如利用市场上己有的数字式音乐或音响产品;自己录制;需高质量音频时可租用专门的录音设备进行录制。
  原始音频数据一般需进行编辑加工才能使用。通过编辑可以实现各种声音混合以及消除或降低声音中的畸变等。一般的音频编辑软件(如WaveEdit等)都具有设置音量、渐强渐弱处理及多通道的混合等常用功能。
  多媒体应用中音频数据的另一个重要来源是乐器数字接口(MIDI:Musical Instrument Digital Interface)文件。国际电子乐器生产厂家达成有关协议,并于 1988年正式提交给MIDI制造商协会,便成为数字音乐的一个国际标准。 MIDI标准规定了电子乐器与计算机连接的电缆硬件以及电子乐器之间、乐器与计算机之间传送数据的通信协议等规范。 MIDI标准使不同厂家生产的电子合成乐器可以互相发送和接收音乐数据。随着MIDI标准的施行,计算机成为电子合成乐器间的控制环节,市场上出现了大量可进行记录、存储、编辑和播放乐谱(音符表或音符序列)的计算机软件。使用高级语言(如C,Basic或Fortran)编程,根据特定的作曲算法也可生成ASCII乐谱,并翻译为在合成器上进行演奏的序列文件。
  音频处理主要集中在音频压缩上,最新的语音压缩算法可将原始声音数据压缩六~八倍以上。语音合成是指将普通正文合成为语音,国内外一些语音合成系统的水平均已达到实用阶段,特别是汉语语音合成研究近年来有突飞猛进的发展。音频技术中难度最大、也最具应用前景的当属语音识别;语音识别目前仍处于实验研究阶段,虽有少量产品问世,但距实用尚有一定的距离。然而,其潜在的商业应用前景使之一直成为音频技术研究关注的热点之一。

TOP

发新话题