第3章 数据压缩的基本技术

3.1 概述

数据压缩技术的研究已有几十年的历史。从基本原理来看,压缩技术可以分为两大类。第一类方法是基于香农(Shannon)理论C.E.Shannon,“A mathematical theory of communication,”Bell Sys.Tech.J.,1948,pp.379-423,623-656的。在这类方法中,视频图像序列利用在空间上和时间上取样得到的一组像素(灰度、彩色)值来表示(声音用在时间上对波形取样的一系列样值表示);而压缩的方法则是采用一般信号分析的方法来消除数据中的冗余,最终使得用来表示图像的一组数据是互不相关的,且是最简约的。对于这些方法,重要的是了解信源的统计特性,而不关心图像的具体内容,也不考虑或较少考虑人的视觉特性。因此,此类方法称为基于像素(或基于波形)的压缩方法,也称为第一代图像压缩编码方法。

第一代图像压缩编码方法在20世纪80年代初已趋于成熟H.G.Musman,et.al.,“Advances in Picture Coding,”Proc.IEEE,Vol.73,1985,pp.523-548.,许多优秀成果已被收入近年来制定的有关图像和视频数据压缩的国际标准,如JPEG,MPEG和H.26X等。由于希望对图像数据进行几十倍,以至于百倍以上的压缩,采用单一的压缩方法往往不能奏效,因此,各种国际标准都综合利用了多种基本压缩方法来达到所要求的压缩比。当需要进行极低码率的图像数据压缩时,第一代技术往往不能提供令人满意的解码重建图像。

“第二代图像压缩编码方法”这一术语是在20世纪80年代中期正式出现的H.G.Musman,et.al.,“Advances in Picture Coding,”Proc.IEEE,Vol.73,1985,pp.523-548.。极低码率的图像数据压缩往往采用第二代技术。这类方法在很大程度上依赖于对人类视觉特性的研究,其核心思想是力图发现人眼是根据哪些关键特征来识别图像或图像序列的,然后根据这些特征来构造图像模型。例如,根据人眼对物体的轮廓比对物体内部细节更为敏感的特点,可以利用物体(而不是像素)的集合来表示图像。所谓“物体”是指按边缘信息将某特定图像分割成的若干区域,每个区域内部具有相同的特性(如同一灰度、纹理或运动速度等)。分别对这些区域进行编码将比基于像素的编码方式有效得多。根据视觉特性的其他特点,还可以构造其他的图像模型和编码方式。

鉴于第二代技术尚未达到成熟的阶段,在有关的图像和视频压缩编码的国际标准中也未大量应用,因此,在本章中我们着重讨论第一代技术。