运用定点DSP实现MPEG-4标准中DCT系数快速量化的方法

发布时间:2010-11-14 阅读量:1105 来源: 我爱方案网 作者:

在基于DCT变换的图像压缩编码方法中,对DCT系数必须做量化处理。量化过程是一个多对一的映射,例如对一个8×8块的64个DCT变换系数分别除以量化步长后取整。由于大多数DCT变换系数量化后变为零,因而达到压缩的目的。由于在量化过程中用到除法,因此通常需要进行浮点运算。

但是,可进行浮点运算的数字信号处理器(DSP)芯片结构比定点DSP芯片复杂,价格一般也比定点DSP芯片高很多。所以数字图像处理系统中通常采用定点DSP芯片来完成图像压缩运算,这种方法已经成为数字图像处理技术的的一个趋势。

可用于数字图像处理的比较好的定点DSP芯片有德州仪器公司新一代高性能定点DSP芯片TMS320C6200系列。它具有VLIW(Very Long Instruction Word)结构,由8个可并行运行的执行单元构成。这些单元使得该系列芯片在单周期内可以并行执行多条指令,例如在单周期内并行完成2个16位×16位乘法和2个移位操作。它还具有流水线结构,使得若干条指令的不同执行阶段可以并行执行。这些设计使得TMS320C6200系列芯片程序执行速度更快、性能更高。如200MHx时钟的TMS320C6201峰值性能可以达到1600MIPS。

在定点DSP上完成除法,通常的办法是调用库函数。但是调用库函数,势必会打破循环中的流水线操作,严重影响量化的完成速度。所以提高量化过程速度的关键就在于避免任何函数调用、跳转等操作。

本文以TMS320C6200系列定点DSP为例,提出一种用定点乘法和移位运算来代替量化过程中除法和饱和运算的方法,从而极大地提高了量化过程的运行速度。该方法也同样适用于其它各种定点微处理器。

1 MPEG-4标准中采用的量化技术及程序优化

MPEG -4标准中定义了两种量化方式:H.263量化方式和MPEG-4量化方式。这里为简单起见,只介绍TMN2.0编码器所用到的一种量化策略:AC系数和帧间宏块的DC系数用H.263量化方式,而帧内宏块的DC系数用MPEG-4量化方式中的DC系数非线性量化方式。

1.1 H.263量化方式

量化参数QP可以取值[1,3],量化步长为2QP。则量化公式为:

对于帧内宏块,LEVEL=|COF|/(2QP)

对于帧间宏块,LEVEL=(|COF|-QP/2)/(2QP)式中,COF表示即将被量化的DCT变换系数,LEVEL表示量化结果的绝对值。

1.2 MPEG-4DC系数非线性量化方法

量化公式为:LEVEL=DC_COF//dc_scaler

式中,DC_COF表示即将被量化的DCT变换DC系数;LEVEL表示量化结果;//表示先进行除法运算,然后对结果四舍五入取整。

在内部宏块内,定义亮度块为类型 1块,色差块为类型2块,类型1块的C系数由类型1的非线性标尺量化;类型2的DC系数由类型2的非线性标尺量化。

表1为定义DC非线性量化标尺dc_scaler。

表1 帧内宏块DC系数标尺

类  型 量化参数(QP)范围内的dc_scaler
1~4 5~8 9~24 25~31
亮度:Type1 8 2QP QP+8 2QP-16
色度:Type2 8 (QP+12)/2 QP-6

从表1中可以看到亮度块和色差块的DC系数有独立的量化标尺,亮度块具有较大的标尺而色度块具有较小的标尺。这种分段线性的非线性量化策略是一种高效的量化方式,它在保证图像质量的基础上提高了压缩效率。

1.3 将量化除法改定点乘法的方式

以内部宏块的AC系数量化公式为例,将其改写为:

LEVEL=|COF|/2QP=|COF|(2 n/2QP)/2 n

定义量化参数ac_cocff=[2n/2QP],[x]表示对x截尾取整,则:

LEVEL=|COF|×ac_coeff/2n

在QP的取值都范围[1,31]内,要使截尾取整后的每一个2 n/2QP的值都能够用量化参数ac_coeff一一对应地表示,n必须足够大。通过计算得出:当n≥11时满足要求。

取n=11得到ac_coeff的计算公式为:

ac_coeff=[2 11/2QP]

其实质就是用一个字(32 bit)的低11位(0Q11)来表示1/2QP的小数部分。

由于QP在[1,31]之间,可以用上述公式计算出对应于帧内宏块AC系数量化的量化系数的查找表:ac_coeff=AcQConff[QP]。用C语言表示为(假设QP=0时ac_coeff=0):

const short int AcQConeff[32]=

{0x000,0x400,0x200,0x155,0x100,0x0cc,0x0aa,0x092,

0x080,0x071,0x066,0x05d,0x055,0x04e,0x049,0x044,

0x040,0x03c,0x038,0x035,0x033,0x030,0x02e,0x02c,

0x02a,0x028,0x027,0x025,0x024,0x023,0x022,0x021};

计算表明,AC系数量化系数、亮度块DC系数量化系数和色差块DC量化系数都可以统一用一个字的低11位(0Q11)来表示。这样就可以分别计算出它们的量化系数的查找表,从而实现用乘法运算代替除法运算。

而除以2 n的操作可以用右移n位的办法来完成。

对于8bit无符号二进制数表示的象素值,在经过DCT变换后,其DCT变换系数的值域为[-2048,2047],最大有12位二进制数。同时,由上述分析可知量化系数最大有11位。所以DCT变换系数与量化系数相乘的结果最大将有11+12共23位。由于TMS320C62xDSP芯片中集成的乘法器是 16位×16位的乘法器,乘法运算结果存放到32位的寄存器中。所以用本文方法计算出的量化系数与DCT变换系数相乘后,结果不会溢出。

根据MPEG-4 Visual标准TMN 2.0的要求,量化后AC系数值要饱和到[-2048,2047]之间。这可以利用TMS320C62x芯片指令集中的饱和左移指令SSHL来实现,只需两条指令即可完成饱和运算,无需使用比较指令和跳转指令。

下面给出内部宏块量化的TMS320C62x线性汇编程序:

cmpeq type,1 //type定义的是当前块的类型

[type] ldh *+DcLumQCoeff[QP],dc_coeff //得到类型1的DC系数的量化参数

[!type] ldh *+DcChromQCoeff[QP],dc_coeff //得到类型2的DC系数的量化参数

lde *coeff[0],level //取出DCT变换DC系数

mpy level,dc_coeff,level //用乘法进行量化

addk 0x400,level //加 0x400,对结果进行四舍五入

shr level,11,level //右移11位

cmpgt level,maxDC,tmp //对量化后的DC系数进行饱和运算

[tmp] mv maxDC,level //将其限制在[1,maxDC]之间cmplt level,1,tmp

[tmp] mvk 1,level

ldh *+AcQcoeff[QP],ac_coeff //得到AC系数的量化参数

mvk 63,cntr //63次循环,只对AC系数进行量化

loop: .trip 63 ldh *coeff++[1],cof //取出DCT变换AC系数

abs cof,level

mpy level,ac_coeff,level //对AC系数绝对值用乘法进行量化

shru level,11,level //右移11位

cmplt cof,0,tmp

[tmp] neg level,result

[!tmp] mv level,result

sshl result,20,result //将量化后的AC系数值进行饱和运算,

shru result,20,result //将结果限制在[-2048,2047]之间

sth result,*qcoeff++[1]

[cntr] sub cntr,1,cotr

[cntr] b loop

由该程序可以看到,程序中没有任何会影响流水线的的跳转语句及函数调用。因此将该程序编译后会发现,此循环被优化构成软件流水。如果再使用其它一些优化手段,比如合并程序中的移位指令,合作字访问指令一次处理两个短型数据等,该程序的效率将会更高。我们用TMS320C62x软件仿真器测试表明,原来使用除法的量化函数需要4871个周期,而运用上述优化办法进行优化后的量化函数只需275个周期即可完成,效率提高约18倍。

DCT/IDCT 变换及量化过程是视频图像压缩系统中的关键模块。该模块的执行速率对整个系统的处理流度影响很大,因此将量化过程中的浮点运算转换为定点运行,提高该模块在定点DSP芯片上的执行速度,其意义显得尤为重要。同时由于目前绝大多数数字通讯系统都基于定点DSP芯片,如果用定点芯片完成视频图像处理将会有易于与数字通讯系统集成的优点。我们的这一方法为在定点芯片上完成图像处理进行了有益的尝试,为后续的研发工作打下了一个良好的基础

相关资讯
全闪存与软件定义双轮驱动——中国存储产业年度趋势报告

根据IDC最新发布的企业级存储市场追踪数据,2024年中国存储产业迎来结构性增长拐点。全年市场规模达69.2亿美元,在全球市场占比提升至22%,展现出强劲复苏态势。以浪潮信息为代表的国内厂商持续突破,在销售额(10.9%)和出货量(11.2%)两大核心指标上均跻身市场前两强,标志着本土存储生态的成熟度显著提升。

索尼启动半导体业务战略重组 图像传感器龙头或迎资本化新篇章

全球消费电子巨头索尼集团近期被曝正酝酿重大战略调整。据彭博社援引多位知情人士透露,该集团拟对旗下核心半导体资产——索尼半导体解决方案公司(SSS)实施部分分拆,计划于2023年内推动该子公司在东京证券交易所独立IPO。该决策标志着索尼在半导体产业布局进入新阶段,同时也预示着全球图像传感器市场格局或将发生重要变化。

革新智能驾驶通信:移远车载蜂窝天线补偿器如何破解行业痛点?

在2025上海国际车展上,移远通信推出的全新车载蜂窝天线补偿器引发行业关注。该产品通过双向动态补偿、微秒级频段切换及混频电路集成等核心技术,解决了车载通信中长期存在的射频链路损耗难题,为智能网联汽车提供稳定高效的通信支持。本文将从技术优势、竞争分析、应用场景及市场前景等多维度解读这一创新方案。

全球DRAM市场变局:三星技术迭代与SK海力士堆叠方案的对决

在全球DRAM市场格局加速重构的背景下,三星电子近期宣布将跳过第八代1e nm工艺节点,转而集中资源开发基于垂直通道晶体管(VCT)架构的下一代DRAM技术。据内部路线图显示,三星计划在2027年前实现VCT DRAM量产,较原定计划提前一个世代。该技术通过三维堆叠晶体管结构,将存储单元面积缩减30%,并利用双晶圆混合键合工艺解决信号干扰问题,被视为突破传统平面工艺物理极限的核心方案。

京东方2025年一季度净利润飙升64% 显示业务领跑全球推动业绩新高

2025年4月28日,京东方科技集团股份有限公司(以下简称“京东方”)发布2025年第一季度财报,以多项核心经营指标的历史性突破,彰显其作为全球半导体显示龙头企业的强劲发展动能。报告期内,公司实现营业收入505.99亿元,同比增长10.27%,创下一季度收入新高;归属于上市公司股东的净利润达16.14亿元,同比大幅增长64.06%,扣非净利润13.52亿元,同比飙升126.56%。这一业绩表现得益于其“屏之物联”战略的深化落地,以及“1+4+N+生态链”业务架构下各板块的协同创新。