视频压缩技术的系统考虑
| 以大约 12.5% 的复合速率增加,而不是固定递增。同时,更精细的量化步长还可以用于色度成分,尤其是在粗劣量化光度系数的情况下。 熵编码:与根据所涉及的数据类型提供多个静态 vlc 表的先前标准不同,h.264 针对变换系数采用上下文自适应 vlc,同时针对所有其他符号采用统一的 vlc (universal vlc) 方法。主类还支持新的上下文自适应二进制算术编码器 (cabac)。cavlc 优于以前的 vlc 实施,不过成本却比vlc高。 cabac利用编码器和译码器的机率模型来处理所有语法元素 (syntax elements),包括:变换系数和运动矢量。为了提高算术编码的编码效率,基本概率模型通过一种称为上下文建模的方法对视频帧内不断变换的统计进行适应。上下文建模分析提供编码符号的条件概率估计值。只要利用适当的上下文模型,就能根据待编码符号周围的已编码符号,在不同的概率模型间进行切换,进而充份利用符号间的冗余性。每个语法元素都可以保持不同的模型(例如,运动矢量和变换系数具有不同的模型)。相较于 vlc 熵编码方法 (uvlc/cavlc),cabac 能多节省 10 % bit速率。 加权预测:它利用前向和后向预测的加权总和建立对双向内插宏模块的预测,这样可以提高场景变化时的编码效率,尤其是在衰落情况下。 保真度范围扩展 2004 年 7 月,h.264 标准增加了称为保真度范围扩展 (frext) [11]的新修订。这次扩展在h.264 中添加了一整套工具,而且允许采用附加的色域、视频格式和位深度。另外还增加了对无损帧间编码与立体显示视频的支持。frext 修订版在 h.264 中引入了 4 种新类,即: * high profile (hp):用于标准 4:2:0 色度采样,每分量 8 位彩色。此类引入了新的工具 —— 随后详述。 * high 10 profile (hi10p):用于更高清晰度视频显示的标准 4:2:0 色度采样,10 位彩色。 * high 4:2:2 10 bit color profile (h422p):用于源编辑功能,如:( 混合。 * high 4:4:4 12 bit color profile (h444p):最高品质的源编辑与色彩保真度,支持视频区域的无损编码以及与新的整数色域变换(从 rgb 到 yuv 及黑色)。 在新的应用领域中,h.264 hp 对广播与 dvd 尤为有利。某些试验显示出 h.264 hp 的性能比mpeg2 提高了 3 倍。下面介绍 h.264 hp 中引入的主要附加工具。 自适应残差块大小与整数 8(8 变换:用于变换编码的残差块可以在 8(8 与 4(4 之间切换。引入了用于 8(8 块的新 16 位整数变换。较小的块仍然可以采用以前的 4(4 变换。 8(8 亮度帧内预测:增加了 8 种模式,除之前的 16(16 和 4(4 块以外,使亮度内部宏模块还能够对 8(8 块进行帧内预测。 量化加权:用于量化 8(8 变换系数的新量化加权矩阵。 单色:支持黑/白视频编码。 8. windows media video 9 / vc-1 windows media 是提供网上音乐与视频预订服务与视频流的主要格式。微软公司于 2002 年推出了 windows media video 9 系列编解码器,实现了视频压缩效率的显著提高。wmv9 另外还作为 vc-1 在 smpte 中实现了标准化[12]。 与 h.264 类似,它包含许多高级编码工具,不过种类有所不同。除了支持半象素双线性插值之外,wmv9 的 me 还允许 1/4 象素双立方插值(采用 4 抽头近似双立方滤波器)。另外它还包含与 h.264 类似的环内去块滤波器,不过滤波器和决策细节不同。其他部分功能包括: 多个 vlc 表:wmv9 主类包含多套针对不同类型内容进行优化的 vlc 表。这些表可以在帧级切换,以适应输入视频的特征。 dct/idct 变换切换:wmv9 支持多种 dct 块大小,包括:8(8、8(4、4(8 和 4(4。其采用专用的 16 位整数变换与逆变换。 量化:采用一般基于步长的量化和死区量化。死区量化可以在低比特率时实现显著节省。 另一个有趣的功能是能够在涉及衰落的情况下采用明确的衰落补偿。它可以提高这些情况下运动补偿的质量。 wmv9/vc-1 在性能方面与 mpeg-2 和 mpeg-4 简化类相比有显著提高,相对于 h.264,其知觉质量感受也非常优秀[13]。不过,在提供相似压缩效率情况下,wmv9/vc-1 与 h.264 主类相比复杂性要求较低。wmv9 广泛应用于个人电脑环境,而且已经成为互联网消费设备中的重要技术。wmv9/vc-1 在好莱坞和独立制片业正日益受宠,多部电影的发行开始采用wmv9/vc-1 进行编码,以实现 pc dvd 上的高清晰播放。此外,wmv9 已经作为新兴的 hd-dvd 格式压缩选项实现了标准化。 9. avs 2002 年,中国信息产业部成立的音视频技术标准 (avs) 工作组宣布准备针对移动多媒体、广播、dvd等应用编写一份国家标准。该视频标准称为 avs [14],由两个相关部分组成 - 针对移动视频应用的 avs-m 和针对广播与 dvd 的 avs1.0。avs 标准与 h.264 相似。 avs1.0 同时支持隔行和逐行扫描模式。avs 中 p 帧可以利用 2 帧的前向参考帧,同时允许 b 帧采用前后各一个帧。在隔行模式下,4 个场可以用作参考。可以仅在帧级执行隔行模式中的帧/场编码,这一点与 h.264 不同,其中允许此选项的 mb 级自适应。avs 具有与 h.264相似的环路滤波器,可以在帧级关闭。另外,b 帧还无需环路滤波器。帧内预测是以 8(8 块为单位进行。mc 允许对亮度块进行 1/4 象素补偿。me 的块大小可以是 16(16、16(8、8(16 或 8(8。变换方式是基于 16 位的 8(8 整数变换(与 wmv9 相似)。vlc 是基于上下文自适应 2d 运行/级别编码。采用 4 个不同的 exp-golomb 编码。用于每个已量化系数的编码自适应到相同 8(8 块中前面的符号。由于 exp-golomb 表是参数化的表,因此表较小。用于逐行视频序列的 avs 1.0 的视频质量在相同比特率时稍逊于 h.264 主类。 avs-m 主要针对移动视频应用,与 h.264 基本规范存在交叉。它仅支持逐行视频、i 与 p 帧,不支持 b 帧。主要 avs-m 编码工具包括基于 4(4 块的帧内预测、1/4象素运动补偿、整数变换与量化、上下文自适应 vlc 以及高度简化的环路滤波器。与 h.264 基本规范相似,avs-m 中的运动矢量块大小降至 4(4,因此 mb 可拥有多达 16 个运动矢量。采用多帧预测,但仅支持 2 个参考帧。此外,avs-m 中还定义了 h.264 hrd/sei 消息的子集。avs-m的编码频率约为 0.3db,在相同设置下稍逊于 h.264 基本规范,而解码器的复杂性却降低了大约20%。 10. 各编解码器的功能与工具对比 表1概述我们介绍的视频标准采用的主要压缩功能与工具。
11. 市场趋势与应用 视频压缩正在市场中催生数量日益增长的数字视频产品。采用数字视频压缩技术的终端设备范围广泛,从电池驱动的便携设备到高性能基础设备。表 2 概述部分应用、主要需求、采用的典型视频编解码器及其在这些应用中的发展趋势。
12. 实时实现 数字视频的最佳处理器解决方案取决于具体的目标应用。ti 拥有可支持多种标准并满足主要设计及系统约束需求的各种 dsp。ti 的解决方案范围广泛,其中包括低功耗 c5000 dsp 与移动omap 应用处理器、高性能 c6000 dsp 与视频优化的高性能 dm64x 和 dm644x 数字媒体处理器。目前倍受关注的处理器之一是未面世的 dm6446,我们将在本节中进行介绍。 德州仪器 (ti) 的 dm 系列处理器专门针对高端视频系统的需求而设计。该系列的最新处理器是功能强大的 dm6446[15],其采用了 ti 的达芬奇 (davinci) 技术[16]。dm6446 的双内核架构兼具 dsp 和 risc 技术优势,集成了时钟频率达 594mhz 的 c64x+ dsp 内核与 arm926ej-s内核。新一代 c64x+ dsp 是 tms320c6000(tm) dsp 平台中性能最高的定点 dsp,并建立在 ti 开发的第二代高性能高级 vliw 架构的增强版之上。c64x+ 与前代 c6000 dsp 平台代码兼容。dm644x 等可编程数字媒体处理器可以支持所有的现有业界标准以及采用单个可编程数字媒体处理器的专有视频格式。dm6446 还具有片上内存,包括一个 2 级高速缓存和众多具有视频专用功能的外设。dm6446 还包含一种视频/影像协处理器 (vicp),用于减轻相关算法(如:jpeg、h.264、mpeg4 与 vc-1)的 dsp 内核繁重的视频与影像处理负担,从而使更多的 dsp mips 能够用于视频后处理或者其他并行运行等功能。 表3说明 dm6446 在各种标准下保持 d1 (720(480) 分辨率大约所需要的频率。
表解码器性能数据是针对最差情况下的比特流。解码器性能随所采用功能组合的变化而变化。上述例子中假定为高品质的编码。dm6446 上的 c64x+ 可达到 594mhz 的时钟频率。 请注意:所显示的编码频率数据是根据现有/计划实施而得出的典型测试数据。另外,编码器负载随目标应用不同而存在显著差异。压缩标准规定需要的语法与可用的工具,不过许多算法结果取决于具体实施情况。主要变量包括:比特率控制算法、单通道与多通道编码、i/b/p 帧比率、运动搜索范围、运动搜索算法、以及选用的个别工具与模式。这种灵活性允许我们在计算负载和改进质量之间做出不同取舍。显然所有编码器都可以采用或高或低的频率实现不同的视频质量水平。 13. 结论 越来越多的视频压缩标准可以针对具体最终应用提供越来越高的压缩效率和越来越丰富的工具。另外,向网络化连接发展的趋势意味着许多产品越来越需要支持多种标准。多种标准和专有算法的流行也使我们难以选择单个标准,尤其是在硬件决策经常超前于产品部署的情况下。不仅如此,每个视频编码算法都提供丰富的工具与功能选择,以平衡压缩效率的复杂性。工具和功能的选择是与特定应用和用例息息相关的重复过程。由于必须支持的编解码器数量的增多以及针对具体解决方案和应用而对编解码器进行优化的选择范围更为广泛,因此在数字视频系统中采用灵活的媒体处理器是大势所趋。dm6446 等数字媒体处理器可充分满足性能处理需求同时架构灵活,从而能够快速把新标准实施推向市场,其中包括:h.264、avs 与 wmv9。我们可以在标准定义阶段实施 |



