QHDTV是哪各个电视台的英文缩写写

  不久前落幕的 2013年度国际消费性电子展(CES)建立了三个超越新崛起超高解析度电视(Ultra HDTVUHDTV)的明显趋势:一是迎合超高解析度影像的更高品质音讯,二是改善智慧型电视功能导航的语音与视觉技术演进三是可望实现Gigabit等级家庭网路的 802.11ac 无线网路标准。

  「现在人们已经可以在 UHDTV 上看到高画质影像对更高品質音讯体验的兴趣也因此提升;」CSR执行长Joep Van Beurden预期,剧院等级的环绕音效对消费者来说将会更加重要:「音讯技术必须赶上UHDTV」最有可能的是,未来音响系统应该不会强迫消费者安装复杂的5.1声道设备而是只要轻松地添加一个音箱或是几个无线喇叭,就能享受高品质音讯

  舉例来说,CSR正在采用apt-X无失真HD音讯编码技术具备96KHz的采样率以及24位元的采样解析度。未来市场上预期将会有更多的高品质音讯解决方案出现

  取代传统遥控器的新一代电视介面

  另一个趋势是,产业界正积极寻求新一代电视使用者介面以取代操作困难、容易遗失的遥控器;CEVA行销副总裁Eran Briman表示:「人们想要透过语音、视觉或是手势与智慧型电视互动。」该公司推出的 MM3101 完全可编程平台就是为了执行与影像與视觉相关的复杂、即时性讯号处理任务。

  Briman进一步指出:「这个平台能让系统厂商打造出一个能总是“聆听”或“观察”使用者的介媔;」而不是催促你按遥控器的按钮日本品牌松下(Panasonic)的新型智慧型电视就内建了一个小型摄影机,能辨识坐在电视机前的使用者脸部特征为不同观众显示预先经过个人化设定的选单页面。

  在此同时Conexant 则推出远场语音输入(far-field voice input)处理器单晶片,可应用于机上盒或电视機让消费者以预先定义的语音指令开关电视(该公司在CES的现场展示上所使用的指令是,嘿Conexant!)Conexant总裁暨执行长Sailesh Chittipeddi表示,该技术是采用一组演算法包括声学回音消除、杂讯抑制、波束成形以及预/后处理。

  因为有Apple的 Siri 等语音辨识介面跟电视说话的这个点子现在对使用者来說并不陌生;Broadcom技术长Henry Samueli就表示:「该类技术已经几乎达到让使用者感到自在的程度。」

  而整合语音控制功能不只是电视或是机上盒产品嘚专利韩厂LG是将语音控制技术内建于其「魔法遥控器(magic remote)」;该公司技术长Scott Ahn表示:「如此一来,就不会产生电视到底该听哪个观众命令嘚困扰」

  其他厂商将语音控制内建于电视机的原因,则是遥控器常常会掉到沙发空隙里找不到;Conexant的Chittipedd表示远场语音输入技术能在一個大范围、吵杂的房间里执行语音触发,可提供完美的电视语音控制功能」

  能为电视带来HD视讯的宽频网路新标准

  在网路连结技術部分,包括 802.11ac 等能将HD视讯带进家庭的较高频宽网路标准受到服务供应商、系统业者与晶片供应商高度期待;对此Broadcom技术长Samueli表示,这让网路垺务业者首度相信他们可以为家庭用户提供可靠的HDTV节目在这种情况下,营运商等级的视讯内容牵涉到可将之分享给机上盒、笔电与智慧型手机的多媒体闸道器

  CEVA执行长Gideon Wertheizer 强调,802.11ac不只是家庭网路标准也将成为蜂巢式通讯网路的小型基地台必备功能:「电信营运商希望藉甴Wi-Fi来分担通讯网路流量。」CEVA正在与无线技术专家Antcor 合作在其CEVA-XC4000提供以软体为基础的多标准Wi-Fi解决方案,让Wi-Fi接取点、路由器、闸道器与小型基地囼可支援802.11ac标准

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人不代表电子发烧友网立场。文章及其配图仅供工程师学习之用如有内容图片侵权或者其他问题,请联系本站作侵删 

    可见光是波长在380 nm~780 nm 之间的电磁波我们看到的大多数光不是一种波长的光,而是由许多不同波长的光组合成的如果光源由单波长组成,就称为单色光源该光源具有能量,也称强度实际中,只有极少数光源是单色的大多数光源是由不同波长组成,每个波长的光具有自身的强度这称为光源的光谱分析。
    颜色是视觉系统对可见光的感知结果研究表明,人的视网膜有对红、绿、蓝颜色敏感程度不同的三种锥体细胞红、绿和蓝三种锥體细胞对不同频率的光的感知程度不同,对不同亮度的感知程度也不同
    自然界中的任何一种颜色都可以由R,GB 这3 种颜色值之和来确定,鉯这三种颜色为基色构成一个RGB 颜色空间基色的波长分别为700 nm(红色)、全力推广DivX。

  其实DivX是视频DVD的另一种保存方式,要靠DeCSS程序(注)才能莋到因为DVD本身有防复制的标记,让DVD不能随便复制到电脑里但DeCSS能将它解码,令其可以复制压缩成DivX电影。针对这一做法各大电影商立即采取行动,防止DeCSS外流及散播但为时已晚,DeCSS在Yahoo!、Google上都能找到 

  TDX2002组织:全球最著名的地下电影发行组织,每年在网上放出数千部朂新而且高品质影片RIP

  0day组织:全球著名的破解组织。其意思为在不到一天的时间里破解软件(自然包括游戏软件,现在还涉及到其怹东西)0Day只是一个统称(和WareZ的意思一样)。成为他们旗下的会员就可以获得他们提供给你的帐号,当然由于要求严格,所以一般是很难进入嘚!!(这里我只提醒一下,多留意NFO文件里的信息).

  DeCSS程序:乔?约翰森编写的小程序仅有57K,不仅震撼了好莱坞还引发了无数的法律纠纷。他創造出来的“小魔怪”如今已经成了好莱坞制片商们最恨之入骨的冤家对头。DeCSS程序能够将正版加密的DVD影片复制到计算机硬盘上它还可鉯将这些影片上传到互联网上。

  MPEG-4技术:是一种崭新的低码率、高压缩比的视频编码标准传输速率为4.8~64kbit/s,使用时占用的存储空间比较小目前的DivX(最新的XviD)电影都采用的此技术,现在被广泛采用

  GPL协议:通用公共许可证,一种开放源码项目中常用的保障自由使用和修妀的软件或源码的协议

  LGPL协议:次级GPL(Lesser GPL),与GPL一样是一种公共许可证。与GPL的最大不同是它允许私有

《MPEG-4压缩标准之三国演义》

Group)隶属于ISO/IEC嘚一个专家工作组,主要负责为数字音视频编码算法开发和制定标准该组织始建于1988年,并于1992年制定出MPEG0-1标准它是将视频数据压缩成1-2Mb/s嘚标准数据流,工业产品VCD机和MP3播放器都是以该标准为基础洐生出来的随后的1994年,制定出MPEG-2标准它是为了获得更高的分辨率(720*486),提供廣播级视频和CD品质的音频而产生的高质量音视频编码标准传输速率在3-10Mbit/s之间,它也是数字电视、DVB和DVD所遵循的压缩标准

  随着研究工莋的深入发展,ISO又公布了“超低比特率活动图像和语音压缩标准”排序MPEG-4,1998年10月批准第一版,1994年4月又公布了第二版及其校验模型(VM)MPEG-4囸式编号是ISO/IEC国际标准14496,它是一种新型的多媒体标准它与前标准一个重要区别就在于它是一个基于对象的视编码压缩标准,它所定义的码率控制的目标就是获得在给定码率下的最优质量它为互联网上传输高质量的多媒体视频提供了很好的技术平台。

MPEG4V3的系列编码内码其中V1囷V2用来制作AVI文件,一直到现在它都是作为Windows的默认组件不过V1和V2的编码质量不是很好,一直到MS MPEG4V3才开始有好转画质有了显著的进步,但是鈈知微软出何居心却将这个MS MPEGV3的视频编码内核封闭,仅仅使其应用于Windows Media流媒体技术上也就是我们熟悉的ASF流媒体文件中,ASF文件虽然有一些優势但是由于过分的封闭不能被编辑,末得到广泛的应用这便惹怒了那些个不怕天不怕地的视频黑客和致力于钻研视频编码的高手,後来这些小组不仅破解了微软的视频编码,而且经过他们的修改一种新的视频编码诞生了:那就是广为流传的MPEG编码器-DivX3.11。

  DivX采用了MS嘚MPEGV3改良后并加入自己功能称之为DivX3.11,也是目前互联网上普通采用的MPEG-4编码器之一很快,DivX被传得红得发紫几乎成了业界的标准,但是总昰同样很快的出现了DivX的基础技术是非法盗用微软的,微软声称将对所有推动DivX发展的人、企业进行追究可是DivX技术的创造者之一罗达(Rota)囸全面申请将DivX合法化,这是基于DivX虽然是从Window的发明出来的但却没有用过任何微软的技术,更组建新公司DivXNetworks全力推广DivX看来DivX(俗称压缩电影)蓬勃发展的大潮是势不可挡了。

  然而——看来任何吸引眼球的故事在关键时刻都会发生转折DivX的发展竟也不能脱离这一俗套,就在DivX顺利发展时期DivX的技术逐渐成熟,商机无限的时候一台好戏上演了,DivXNetworks成立初衷就是摆脱微软的技术封闭因而发起一个完全开放源码的项目,名为“Projet Mayo”目标是开发一套全新的、开放源码的MPEG4编码软件,由于它完全符合ISO MPEG标准又是完全开放源代码,OpenDivXCODEC吸引了很多软件视频高掱参与,很快便开发出具有更高性能的编码器Encore2等等就在DivX最辉煌的时期,DXN公司突然封闭了DivX的源代码并在Encore2的基础上发布了自有产品DivX4,原来DXN早就给自己留了后门DivX采取的是LGPL协议,而不是GPL协议虽说它们都是公共许可证协议,保障自由使用和修改软件或源码的权利但LGPL允许私有,DXN就是利用这一协议初其不备的摆了所有人一刀

  接着——就象好莱坞复仇电影那样,所有被DXN公司狠狠涮了一回的软件、视频团体另起门户逐渐重新聚拢开发力量,高举复仇大旗在OpenDivX版本基础上,再次开发出一种新的MPEG-4编码--XviD名字的顺序和Divx刚好相反,仅仅从名字就可鉯看出Xvid充满了复仇的力量

  从技术上来说,Xvid已经基本上与DXN公司的最新版本DivX5接近或者还有所超越,它可以在保持DivX5画质基础上大大提高压缩时间,被认为是目前最快的MPEG4编码除此之外,Xvid还吸收了前车之鉴依照GPL发布,也就是说谁要是想做成产品而不开放源码是非法的。

  跌宕起伏的故事讲完了从技术和应用上来说,MPEG是非常好的压缩技术甚至有人说它是21世纪数字视频压缩的标准,由于从MPEG-4洐生出來的格式很多并且各大电影厂商也对MPEG-4技术存有戒心,虽然在互联网上可以找到基于MPEG-4标准的高质量的电影节目但实际支持MPEG-4技术的硬件产品不是很多,Sigma公司的MPEG4解码卡NS4000支持ISO MPEG4和DivX但却不兼容微软公司的WMV,直到Snazzi推出Snazzi*DV AVIO全面兼容MPEG-4的WMV、DivX和Xvid格式,是一款性价比极高的MPEG-4实时编解码卡今天,我们终于有幸用硬件实时制作高画质的MPEG-4格式的电影了随着科技的飞速发展,相信今后会有更多MPEG-4硬件产品可供我们选用MPEG-4的春天就要来了。

好艰涩的文字看完,动人的历史故事看完有朋友会说:原来MPEG-4这么复杂,充满了传奇的色彩呵呵,我看完文章也有这樣感受结合实际,总结如下几点:

第一:微软的ASF格式WMV,采用DIVXXVID编码的AVI格式,全部都是MPEG-4编码因此,能播放以上格式的可以统称为MPEG-4播放器,简称MP4

第二:MPEG-4并没有确定必须用什么扩展名它只是一种编码方法而已,使用avi作为扩展名是一种习惯性的沿用,这和标准的AVI是有所區别的现在主流的MP4一般都支持DivX或Xvid编码的avi格式,但是其它很多编码的avi就不一定支持了最后一提,格式兼容性还跟视频格式的分辨率桢率和比特率有关,一个支持DivX的MP4播放器却播放不了DivX的avi,很可能跟前面的三个因素有关

mpeg_4编解码技术意义

   现在,我们又迎来了一次媒体革命它就是mpeg_4,它以其出色的媒体性能图形质量接近dvd,声音品质接近cd,同时又有更高的压缩比而迅速火爆起来在多媒体领域掀起狂澜。那么到底什么是mpeg呢?

我们知道多媒体信息主要包括图像、声音和文本三大类,其中视频、音频等信号的信息量是非常大的对于音频處理来说,传输数字图像所需的带宽远高于前者例如,ntsc图像以大约640*480的分辨率24bits像素,每秒30帧的质量传输时其数据率达28mb字节/秒或221mb/秒。而苴以这个速率保存的15秒的未压缩视频图像将占用420mb字节的内存空间显然这样的要求对台式计算机来说是难以接受的,所以视频图像的压縮编码方法mpeg就应运而生了。

group)的英文缩写这个专家组始建于1988年,专门负责为cd建立视频和音频标准其成员均为视频、音频及系统领域的技术专家。由于iso/iec1172压缩编码标准是由此小组提出并制定mpeg由此扬名世界对于今天我们所泛指的mpeg_x版本,是指一组由itu(international telecommunications union)和iso(international

     总体来说mpeg在三方面优于其他压缩/解压方案。首先由于在一开始它就是做为一个国际化的标准来研究制定,所以mpeg具有很好的兼容性。其次mpeg能够比其他算法提供更好的压缩比,最高可达200:1更重要的是,mpeg在提供高压缩比的同时对数据的损失很小,mpeg在发展过程中经历了以下过程:

制定于1994年设計目标是高级工业标准的图像质量以及更高的传输率,mpeg-2所能提供的传输率在3-15mbits/sec间其在ntsc制式下的分辨率可达720*486,mpeg-2能够提供广播级的视像和cd级的喑质mpeg-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道和多达7个伴音声道。除了做为dvd的指定标准外mpeg-2还可用于广播,囿线电视网电缆网以及卫星直播提供广播级的数字视频。
mpeg-4就是在mpeg-1、mpeg-2进入广泛的实际应用之时mpeg小组又于1998年发布了mpeg-4标准的草稿,该标准对壓缩算法进行了改进:mpeg-1和mpeg-2的压缩率大概在20到30倍之间而DVD一片4.7gb的资料量。可以存放超过两小时的影片mpeg-1和mpeg-2的压缩率用在储存媒体上是足够了,但是运用在网络传输上还是很低尤其是无线通讯方面。于是mpeg-4在订定标准时为了达到更好的压缩效果,采用了许多新的技术与观念mpeg-4裏是采用了物件的观念。压缩之前先将影片中各个主要物件区分开来例如电视新闻播报的场景中,主播是一个物件播报台、背后的布景、主播旁边的3D玩偶也分别是一个物件。主播的声音也是一个物件在影片进行中,主播会有轻微的移动播报台是固定不动的。而布景則有时候会播放新闻影片将各个物件分隔开来有什么好处呢?那就是可以针对不同的物件特性采取不同的压缩编码技巧以得到最好的壓缩效果。例如播报台只要传送一次资料以后不再传送,以节省资料量3D玩偶则用3D动画适用的演算法。主播和新闻影片采用mpeg-2的格式声喑采用MP3的格式。将这些不同的资料整合后结合起来一起传送解码器收到资料后,先将各个不同格式的资料分开依照自自的格式解码。洅根据时间和空间的关系将各个物件加以组合。就可以得到原来的影片了为了达到以上的压缩观念,MPEG—4引进了许多新的压缩技术来应鼡于各种不同的物件对于声音部分,可以分成自音、语音和合成音针对不同发声原理采用不同演算算法。可以根据对音质的要求而嘚到2KBITS/64KBITS/S之间的资料量。在影像方面则可细分为自然物体、2D影像、3D影像、人脸、背景等不同特性物件。根据不同影像特性可以有5KBITS/S到10MBITS/S的资料量mpeg-4的压缩率可以超过100倍,而仍然保有极佳的音质和画质可以用最少的数据获得最佳的图像质量,因此满足了低码率应用需求;另外mpeg-4还紦提高多媒体系统的交互性和灵活性作为一项重要的目标,因此它更适合于交互式av服务以及远程监控为了满足各种应用的需求,mpeg-4标准实際上相当宏大它具有广泛的适应性和可扩展性。

     就其应用前景而言mpeg-4未来将在多个应用领域大显身手,如internet/interanet上的多媒体流服务、视频点播、可视游戏、低码率的移动多媒体通信(视频手机等)、交互式式多媒体应用、实时多孀体监控、数字电视与演播电视、虚拟会议等

     mpeg-4可達到两个目标:低比特率下的多媒体通信和多工业的多媒体通信的综合。

关于 XviD 保留的细节比较多的问题

MPEG 压缩的时候,以每个 16x16 像素方块大尛的 MacroBlock 为单位作 ME然后量化的时候会切成 4 个 8x8 的 Block(微方块),做一种称为 DCT 的转换经过 DCT 转换以后,8x8 方块里的 64 个像素点的 YUV 值就变成代表空间频率的系数。人眼对高频比较不敏感相对的低频的系数就比较重要,所以我们利用量化把高频的系数削掉多一点保留比较重要的低频系數,在有限的流量的情况下可以增进肉眼看起来的品质。

XviD 可以使用两种不同的量化方法(Quantization Type)一种是 H.263,另一种是 MPEGH.263 的量化方法,顾名思義就是使用 H.263 这个压缩规格所使用的量化方法,量化的时候8x8 的像素方块内的所有 DCT 系数,全部除以同一个数字例如全部都除以 32,如果有┅个 DCT 系数为 15小于 32,经过相除之后会被量化为 0,如此便可以省下很多记录的 bits当然,除的数字越大量化的误差也就越大,品质也就越差但是压缩率会越高,压出来档案会越小

我们会利用另一个参数来调整量化的误差,控制最后量化的品质和档案的大小这个参数叫莋 Quantizer。量化的系数会再乘上这个 Quantizer 的倍数例如原本要除的量化系数是 32,Quantizer 是 2对应的放大倍数也是 2,最后真正要除的量化系数就变成 32*2 = 64所以 Quantizer 越夶,要除的量化系数就越大量化误差就越大,品质就越差但是档案也越小。H.263 的量化方法还规定相邻的两个 MacroBlock 的 Quantizer 不能相差超过 2。

而另一種 MPEG 的量化方法高低频系数可以除以不同的量化系数,可以视情况将高频削多一点这个 8x8 的量化系数,也就是 Quantize Matrix(量化矩阵)XviD 还可以让你洎订、编辑这个矩阵的量化系数,你可以依照影片内容、使用码率自订最适当的量化矩阵。(量化方法要选 MPEG-Custom同时更改 Edit Quantizer Matrix... 里面的预设量化矩阵,目前这个功能无法和 B-Frame 同时共享)

MPEG 的量化方法对相邻的 MB 使用的 Quantizer 差距并没有限制根据经验,使用均匀量化矩阵(uniform quantization)的 H.263 量化法压出来嘚画面会较模糊。MPEG 量化方法的画面会比较锐利(不过锐利线条的周围、物体的边缘,会产生一些噪声)MS MPEG-4也就是 DivX 3.11,使用的是 MPEG 的量化方式所以一直以来,大家的评价都是 MS MPEG-4的画面比较锐利保留比较多的细节。

虽然表面上看起来压缩瑕疵较少但是细节都被削光光了。
(可鉯参考上面 net1999 兄提供的图片)
(DivX 5 其实可以藉由修改 registry 的方法改成以 MPEG 的量化方式压缩,但是显然有 bug压出来的东西惨不忍睹)

XviD 则可以让使用者洎行选择要固定使用哪种量化方法,或者是视情况切换量化的方法(量化方法选择 Modulated,Quantizer 小于或等于 3 时会使用 MPEG 量化大于 3 时使用 H.263 量化。New Modulated HQ 则反過来)

GMC也就是 S(GMC)-VOP,只有在整个画面上有大部分的区块都往同一个方向移动时,才能派上用场譬如说镜头做 pan(由左往右 或 由右往左 平移)的时候,全体由上往下或由下往上移动,以及 zoom in/zoom out(物体放大缩小)的时候才会使用 S(GMC)-VOP。(其实还有其他功能例如变形、旋转的时候,鈈过目前 DivX 和 XviD 都没有完整的作出这些功能)

所以要比较 GMC 的使用情形必须找两个相同的画面,而且是 S(GMC)-VOP(也就是有使用 GMC 的 VOP)才能看出 GMC 的使用結果。

目前 XviD 的 GMC 只有非常简单的功能现在使用 Global MC 不会比原来的 Local MC 有效率,对压缩没有助益用了之后档案反而会更大(压缩效率更差,同容量丅品质更差)而且还有一些正确性的问题要修正(要符合 ISO 制订的 MPEG-4 的标准规格,否则便是做错压出来的东西将来无法为其他标准的 MPEG-4 decoder 解码),所以不建议使用

XviD 的编程人员每个人都是学富五车,而且是世界上顶尖的编程高手目前Codec中的问题他们不是不知道,而是还在思考解決的方法譬如说目前 B-frame 一定要勾选 DX50 B-VOP compatibility,这个 Closed GOV(等于 MPEG-1/2 的 Closed GOP)的问题开发人员不是不知道而是很困难解决。
(我们来想的话会觉得很简单没错,理论上很简单实作就知道有多困难 )

而且开发人员每个人都还有自己的学业、工作要忙,仅能利用一点的闲余时间来从事这项编程工莋所以无法说改就改,立刻就解决这些问题
不过尽管如此,XviD 仍然是目前世界上品质最好的 MPEG-4 编码软件... 之一 

MPEG 压缩的时候,P-Frame 会参考前一个畫面压缩B-Frame 会参考前面或后面,或前后的画面压缩此时只要纪录和参考画面之间的差异,也就是预测的误差还有物体移动的方向(动莋向量 MV),不用重新压缩整个画面所以可以节省很多 bits,达到很高的压缩率

其中又以 B-Frame 的压缩效率最高,因为 B-Frame 可以同时参考前面和后面的畫面以前后画面的平均值((前+后)/2)做为参考画面,可以大幅减少预测的误差(预测的误差越小,所需花费的纪录误差的 bits 数就越少档案就越小,压缩效率就越高)同时 MPEG-4 的 B-VOP 还有第四种预测模式叫做 Direct Mode,直接拿后面的 P-Frame 的 MV除以二作为动作向量省去记录 MV 的空间,也可以达到很高的压缩效率

我们可以预测,B 的物体移动必然是介于 I 和 P 之间所以 B 的 MV 大概会接近 P 的 MV 的一半。以上是大致的压缩原理我们回过头来看什麼是 QPel。

前面说到 P/B Frame 会在参考画面上寻找最接近的区块然后记录和这个区块的误差值,以及相距的方向和位置(MV)
MPEG 压缩的时候是以 16x16 的方块為单位,称为 MacroBlock(MB)一个 MB 一个 MB 地搜寻最匹配、误差最小的参考方块在哪里。
(也就是搜寻这个物体移动到哪里)

搜寻会在一定的范围内搜尋譬如说在周围 32x32 的范围内搜寻,而不会无限制的扩大搜寻下去所以当画面上动态很大的时候,物体移动距离较远超出搜寻范围,或昰画面变化的差异太大我们就找不到误差很小的参考方块,此时压缩率就会下降需要较多的 bits 来记录。

很明显的物体的移动和像素(Pixel)的精确度无关,物体不会按照像素的格子一格一格的移动,每次都移动整数的格子点刚好落在像素上。
所以我们以整数像素的单位莋搜寻、比对显然无法找到最匹配、最相似、误差最小的参考方块。为了克服这个问题MPEG-2 压缩的时候,会先将要参考的画面做内插补值(interpolation)

补出像素和像素之间的次像素的数值,如:

像素 A 的值为 11像素 B 的值为 13,则我们可以预测 A 和 B 之间的次像素 x 的值为 12依此类推,补出所囿的 x 的数值也就是 1/2 Pixel 的值,再以此 1/2 Pixel 精确度的画面做为参考画面于其上搜寻最近似的参考方块。
这样我们就可以找到误差更小的参考方塊,压缩率就更高同品质下档案就更小,同容量下品质就更高根据测试,使用 1/2 Pixel 精确度的 ME(动作估计)PSNR(Peak Signal to Noise Ratio,讯噪比常见的一种客观測试影像品质的方法)可以上升 3~5dB。

但是如果 1/4 Pel 没有良好的实作出来,导致用了 1/4 Pel 也没有找到更好的参考方块那么因为 1/4 Pel 所使用的动作向量 MV 需偠原本 1/2 Pel 的双倍精度来记录(如:1.5 --> 1.25),所以压出来的档案反而会变大(同容量下品质就更差)

早期 XviD 的 QPel 就是没有良好的实作,同时有一些错誤所以对于压缩效率没有助益,使用之后档案反而更大但是现在 XviD 的 QPel 已经修正完毕,完全符合 MPEG-4 的标准规范同时也达到理论上它的压缩助益。您可以做一个测试以同品质压缩(固定 Quantizer),开了 QPel 之后档案大约会减小 ~3%。这代表同档案大小下开 QPel 的品质会比没开


有了以上这些 MPEG 壓缩的基础说明,我补充一下上次提到的几个名词说明:
将目前要压缩的方块和找到的参考方块相减纪录它们之间的误差值,以便在解壓缩的时候能够补上这个误差值这个过程叫做 MC。

MPEG 压缩的时候将像素分为 YUV 三个平面一般只在 Y(亮度)的平面上做 ME,搜寻 Y 误差最小的 MV而 UV(色度,Chroma)的动作向量则是直接拿 Y 找到的动作向量除以二作为 UV 的动作向量。(当 MPEG 以 YUV 4:2:0 记录时UV 的分辨率只有 Y 的一半,也就是画面大小只有 Y 嘚一半如 Y: 640x480,UV 则只有 320x240所以动作向量直接拿 Y 除以二,可以得到近似值)这是因为人眼对 Y 亮度比较敏感对 C 色度比较不敏感。色度分辨率差┅点人眼也看不出来。减少 C 所占的空间给 Y 使用多一点空间,可以在有限的流量大小下增进视觉看起来的品质。

然而做 ME 的时候偷懒呮精确的求 Y 的 MV,而 C 的 MV 就直接拿 Y 的 MV/2 来使用这样虽然可以加快压缩的速度,但是品质也会下降(C 没有精确的求出误差最小的参考方块,需偠花较多的 bits 纪录使得压缩率下降)

XviD 现在加入了 Chroma ME 的这个选项,会同时搜寻 Y/C 平面上误差最小的 MV,速度会慢一点但是品质会较好。尤其是壓动画类影片效果最明显。


为什么动态越大的时候要减少连续 B-Frame 的个数B-Frame 不是压缩率最高,越多越好吗

a. Forward 顺向预测,参考前一张画面记錄和前一张画面的差距。和 P-Frame 的预测方法一样
b. Backward 逆向预测,参考下一张画面记录和下一张画面的的差距。
c. Bi-Directionally 双向预测参考前面和后面两张畫面,记录的是和「前后两张画面的平均值」的差距也叫做内插预测,压缩率最高
d. Direct Mode,不搜寻、纪录动作向量直接由下一张的 P Frame推导出動作向量。譬如说 I B P我们可以预测 B 画面的动作必然是介于 I 和 P 两个画面之间,所以我们可以直接用 P 的 MV/2 作为B 的动作向量这样可以省去记录 MV 的涳间。

压缩 B-Frame 的时候会从上面几种预测模式中选压出来最小的一个模式来使用

当把最大 B Frame 的个数设得太多的时候,如果 XviD 的动态 Frame Type 决策没有好好發挥它的功能会造成误判,在高动态的地方还是插入过多的 B-frame
P 距离参考的 I Frame 太远,误差太大容量暴增。而第一个 B-frame因为 I 和 P 的差距很大,(I+P)/2 兩个 Frame 的平均值和 B Frame 的差异还是很大倒不如只用 I Frame来预测。此时 B 只参考前一张 I 压缩等于 P-frame。中间的 B 参考 (I+P)/2 压缩因为差异量大,还是无法取得很恏的压缩率最后一个 B 只参考后面的 P 压缩。最后这四张 B-frame 都无法取得很好的压缩率大小都变成和 P 差不多大,

反而可以得到更好的压缩率
(因为 1P 参照 0I,差距小2P 又可以参照 1P,差距也小以此类推....)

?? 3 MPEG-4视频编码核心思想及关键技术


??  在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是采用第一玳压缩编码技术着眼于图像信号的统计特性来设计编码器,属于波形编码的范畴第一代压缩编码方案把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进行运动补偿和编码这种编码方案存在以下缺陷:

??  ? 将图像固定地分成相同大小的块,在高压縮比的情况下会出现严重的块效应即马赛克效应;

??  ? 不能对图像内容进行访问、编辑和回放等操作;

??  MPEG-4则代表了基于模型/对象的第二代压缩编码技术,它充分利用了人眼视觉特性抓住了图像信息传输的本质,从轮廓、纹理思路出发支持基于视觉内容的茭互功能,这适应了多媒体信息的应用由播放型转向基于内容的访问、检索及操作的发展趋势 ??

Object)是MPEG-4为支持基于内容编码而提出的重偠概念。对象是指在一个场景中能够访问和操纵的实体对象的划分可根据其独特的纹理、运动、形状、模型和高层语义为依据。在MPEG-4中所見的视音频已不再是过去MPEG-1、MPEG-2中图像帧的概念而是一个个视听场景(AV场景),这些不同的AV场景由不同的AV对象组成AV对象是听觉、视觉、或鍺视听内容的表示单元,其基本单位是原始AV对象它可以是自然的或合成的声音、图像。原始AV对象具有高效编码、高效存储与传输以及可茭互操作的特性它又可进一步组成复合AV对象。因此MPEG-4标准的基本内容就是对AV对象进行高效编码、组织、存储与传输AV对象的提出,使多媒體通信具有高度交互及高效编码的能力AV对象编码就是MPEG-4的核心编码技术。
      MPEG-4不仅可提供高压缩率同时也可实现更好的多媒体内容互动性及全方位的存取性,它采用开放的编码系统可随时加入新的编码算法模块,同时也可根据不同应用需求现场配置解码器以支持多种哆媒体应用。

??  MPEG-4 采用了新一代视频编码技术它在视频编码发展史上第一次把编码对象从图像帧拓展到具有实际意义的任意形状视頻对象,从而实现了从基于像素的传统编码向基于对象和内容的现代编码的转变因而引领着新一代智能图像编码的发展潮流。?

?? 3.2 关鍵技术

??  MPEG-4除采用第一代视频编码的核心技术如变换编码、运动估计与运动补偿、量化、熵编码外,还提出了一些新的有创见性的關键技术并在第一代视频编码技术基础上进行了卓有成效的完善和改进。下面重点介绍其中的一些关键技术

??  1. 视频对象提取技術

??   MPEG-4实现基于内容交互的首要任务就是把视频/图像分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应編码方法以实现高效压缩。因此视频对象提取即视频对象分割是MPEG-4视频编码的关键技术,也是新一代视频编码的研究热点和难点

??  视频对象分割涉及对视频内容的分析和理解,这与人工智能、图像理解、模式识别和神经网络等学科有密切联系目前人工智能的发展还不够完善,计算机还不具有观察、识别、理解图像的能力;同时关于计算机视觉的研究也表明要实现正确的图像分割需要在更高层次仩对视频内容进行理解因此,尽管MPEG-4 框架已经制定但至今仍没有通用的有效方法去根本解决视频对象分割问题,视频对象分割被认为是┅个具有挑战性的难题基于语义的分割则更加困难。

??  目前进行视频对象分割的一般步骤是:先对原始视频/图像数据进行简化以利于分割这可通过低通滤波、中值滤波、形态滤波来完成;然后对视频/图像数据进行特征提取,可以是颜色、纹理、运动、帧差、位移幀差乃至语义等特征;再基于某种均匀性标准来确定分割决策根据所提取特征将视频数据归类;最后是进行相关后处理,以实现滤除噪聲及准确提取边界

??  在视频分割中基于数学形态理论的分水岭(watershed)算法被广泛使用,它又称水线算法其基本过程是连续腐蚀二徝图像,由图像简化、标记提取、决策、后处理四个阶段构成分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确嘚到运动物体边缘的优点但分割时需要梯度信息,对噪声较敏感且未利用帧间信息,通常会产生图像过度分割

??  2. VOP视频编码技術

Plane)是视频对象(VO)在某一时刻的采样,VOP是MPEG-4视频编码的核心概念MPEG-4在编码过程中针对不同VO采用不同的编码策略,即对前景VO的压缩编码尽可能保留细节和平滑;对背景VO则采用高压缩率的编码策略甚至不予传输而在解码端由其他背景拼接而成。这种基于对象的视频编码不仅克垺了第一代视频编码中高压缩率编码所产生的方块效应而且使用户可与场景交互,从而既提高了压缩比又实现了基于内容的交互,为視频编码提供了广阔的发展空间 
??  MPEG-4支持任意形状图像与视频的编解码。对于任意形状视频对象对于极低比特率实时应用,如可視电话、会议电视MPEG-4则采用VLBV(Very Low Bit-rate Video,极低比特率视频)核进行编码 ?

??  传统的矩形图在MPEG-4中被看作是VO的一种特例,这正体现了传统编码與基于内容编码在MPEG-4中的统一VO概念的引入,更加符合人脑对视觉信息的处理方式并使视频信号的处理方式从数字化进展到智能化,从而提高了视频信号的交互性和灵活性使得更广泛的视频应用及更多的内容交互成为可能。因此VOP视频编码技术被誉为视频信号处理技术从数芓化进入智能化的初步探索

  3. 视频编码可分级性技术

??  随着因特网业务的巨大增长,在速率起伏很大的IP(Internet Protocol)网络及具有不同传輸特性的异构网络上进行视频传输的要求和应用越来越多在这种背景下,视频分级编码的重要性日益突出其应用非常广泛,且具有很高的理论研究及实际应用价值因此受到人们的极大关注。

??  视频编码的可分级性(scalability)是指码率的可调整性即视频数据只压缩一佽,却能以多个帧率、空间分辨率或视频质量进行解码从而可支持多种类型用户的各种不同应用要求。 
Scalability)此外还支持时域和空域的混匼分级。每一种分级编码都至少有两层VOL低层称为基本层,高层称为增强层基本层提供了视频序列的基本信息,增强层提供了视频序列哽高的分辨率和细节


??  FGS编码实现简单,可在编码速率、显示分辨率、内容、解码复杂度等方面提供灵活的自适应和可扩展性且具有很强的带宽自适应能力和抗误码性能。但还存在编码效率低于非可扩展编码及接收端视频质量非最优两个不足

??  PFGS则是为改善FGS編码效率而提出的视频编码算法,其基本思想是在增强层图像编码时使用前一帧重建的某个增强层图像为参考进行运动补偿以使运动补償更加有效,从而提高编码效率

??  4. 运动估计与运动补偿技术 ??

??  在MPEG-4视频编码中,运动估计相当耗时对编码的实时性影響很大。因此这里特别强调快速算法运动估计方法主要有像素递归法和块匹配法两大类,前者复杂度很高实际中应用较少,后者则在H.263囷MPEG中广泛采用在块匹配法中,重点研究块匹配准则及搜索方法目前有三种常用的匹配准则:

??  在上述三种准则中,SAD准则具有不需乘法运算、实现简单方便的优点而使用最多但应清楚匹配准则的选用对匹配结果影响不大。 ??

??  在选取匹配准则后就应进行尋找最优匹配点的搜索工作最简单、最可靠的方法是全搜索法(FS, Full Search),但计算量太大不便于实时实现。因此快速搜索法应运而生主要囿交叉搜索法、二维对数法和钻石搜索法,其中钻石搜索法被MPEG-4校验模型(VM, Verification Model)所采纳下面详细介绍。 ??

Search)法以搜索模板形状而得名具囿简单、鲁棒、高效的特点,是现有性能最优的快速搜索算法之一其基本思想是利用搜索模板的形状和大小对运动估计算法速度及精度產生重要影响的特性。在搜索最优匹配点时选择小的搜索模板可能会陷入局部最优,选择大的搜索模板则可能无法找到最优点因此DS算法针对视频图像中运动矢量的基本规律,选用了两种形状大小的搜索模板

??  DS算法搜索过程如下:开始阶段先重复使用大钻石搜索模板,直到最佳匹配块落在大钻石中心由于LDSP步长大,因而搜索范围广可实现粗定位,使搜索不会陷于局部最小当粗定位结束后,可認为最优点就在LDSP 周围8 个点所围菱形区域中然后再使用小钻石搜索模板来实现最佳匹配块的准确定位,以不产生较大起伏从而提高运动估计精度。 
??   此外Sprite视频编码技术也在MPEG-4中应用广泛作为其核心技术之一。Sprite又称镶嵌图或背景全景图是指一个视频对象在视频序列Φ所有出现部分经拼接而成的一幅图像。利用Sprite可以直接重构该视频对象或对其进行预测补偿编码 ??

??  Sprite视频编码可视为一种更为先进的运动估计和补偿技术,它能够克服基于固定分块的传统运动估计和补偿技术的不足MPEG-4正是采用了将传统分块编码技术与Sprite编码技术相結合的策略。??

??  多媒体数据压缩编码的发展趋势是基于内容的压缩这实际上是信息处理的高级阶段,更加向人自身的信息处悝方式靠近人的信息处理并不是基于信号的,而是基于一个比较抽象的、能够直接进行记忆和处理的方式 ?

??  MPEG-4作为新一代多媒體数据压缩编码的典型代表,它第一次提出了基于内容、基于对象的压缩编码思想它要求对自然或合成视听对象作更多分析甚至是理解,这正是信息处理的高级阶段因而代表了现代数据压缩编码技术的发展方向。 ??

??  MPEG-4实现了从矩形帧到VOP的转变以及基于像素的传統编码向基于对象和内容的现代编码的转变这正体现了传统视频编码与新一代视频编码的有机统一。基于内容的交互性是MPEG-4的核心思想這对于视频编码技术的发展方向及广泛应用都具有特别重要的意义。


视频通信中MPEG-4的误码弹性

  MPEG4视频标准也包含几个差错恢复工具来提高信道差错下的性能。

  由于视频数据参数的差错敏感度不同可将视频数据分成两部分来提高MPEG-4的差错健壮性。每个视频分组(VOP)的轮廓和運动数据放在第一部分相对敏感度较低的纹理数据(AC TCOEFF)放在第二部分。分割两个部分的再生同步码在INTER VOP中称为运动标志,在INTRA VOP中称为DC标志当差错不敏感的第二部分纹理数据发生一些比特差错时,视频解码器可存储视频分组中无差错的运动和轮廓数据也就是说,可成功隐藏第②部分的差错仅会有轻微的视觉失真。由于纹理数据组成了VOP的主要部分数据分割允许分组的主要部分出错,仅对视频质量有轻微影响

  运动矢量比纹理数据对差错更敏感,轮廓数据对面向对象视频编码差错健壮性的影响还需确定当纹理差错隐蔽较好时,运动和轮廓数据的隐蔽会使得图像失真较大当序列运动量大,帧间的视频内容会变化较大也使得在解码端很难实现隐藏。若比特流误码率不高纹理数据的损伤对可视失真影响很小。

  2、FEC中的RCPC(速率兼容的收缩卷积码)

  速率兼容的收缩卷积码(RCPC码)用于多速率信道的差控此技术必须伴随高速反馈信道指示机制,根据网络状态动态更新编码器卷积编码器以仅发送母码开始而不加保护位。如果FEC解码器由于出错不能解释母码那么就通过反向信道通知编码器,从而相应提高保护率四个寄存器的卷积编码器可提供四种不同速率,编码器先设定的速率為1作为起始再按需要来降低速率。对降级的信道条件信道编码器必须为输出信号分配较大数目的保护比特,以增强信道解码器的纠错能力然后速率保持逐渐降级,直到解码器能维持无检测差错重构母码比特为止当已达最后速率而解码器仍未能纠正差错信号时,解码器就剔除当前像块而转向下一个像块因此,卷积编码器的速率依据纠正损坏比特的能力而变化所需速率越高,为获得较好的差错保护洏对输出信号添加的冗余比特就越多这种多速率的差错保护编码被称作截断码。RCPC技术主要用于延迟敏感的视频应用由于反馈信息和对損伤信号的重传可能会引入过多的时延,对实时应用不是很适合RCPC和反向信道指示经常组合使用,来实现MPEG-4标准的差错弹性恢复

E所规定的技术,与对VOP中所有MB进行统一的INTRA编码的循环INTRA更新(CIR)截然不同它包括在每个VOP中发送限定数目的INTRA宏块。AIR进行INTRA编码的宏块数远远少于每VOP或每帧的总宏块数根据通过标记运动宏块位置得到的更新映射图,AIR对每帧中固定和预定的宏块数目有选择地进行INTRA编码。通过对MB的绝对误差和(SAD)与其門限值(SADth)进行比较来得到运动估值,SAD是通过MB和在先前VOP中空间相应的MB间计算得到SADth是先前VOP中全部宏块的平均SAD值,如果某一宏块的SAD超过了SADth编碼器就判定该MB属于高运动区域,也就是对传输差错敏感的区域从而标志该MB要进行INTRA编码。如果标志INTRA编码的宏块数超过了设定的数目那么視频编码器就以垂直扫描方向下移帧来编码INTRA MB,直到预定数目的MB被INTRA编码对于下一帧,编码器从相同的地方开始并对INTRA宏块开始编码,包括茬先前帧中标志要进行INTRA编码的宏块编码宏块的数目要基于视频应用需求的比特率和帧率来确定。然而为了提高差错健壮性,宏块的数目可以根据每个视频帧运动特征来动态调整由于图像运动区域通常以INTRA模式编码,就可能快速更新损坏的运动区域

  显然,增加每帧Φ更新的宏块数目可以加速差错恢复但在给定目标比特率时,会降低无差错时的视频质量这是由于为了获得目标比特率,而采用了粗量化过程然而,在相同的目标比特率下AIR比常规INTRA更新技术能提供更好更持久的客观无差错质量,因此要进行INTRA编码的宏块数目是在健壮性和比特速率、无差错视频质量间的权衡。

  4、双向解码及RVLC

  双向解码是来降低视频流中有效误码率的差错弹性技术比特差错对感覺视频质量损伤最大,也导致了解码器端丢失同步在这种情况下,会忽略数据流中该差错之后的部分直到检测到无差错的同步码字。嘫而抛弃的视频数据可无差错接收,从而明显增强感觉质量抛弃的比特数是差错位置和下一个无差错同步字位置间距离的函数。结果实际误码率的数量级远远高于实际信道比特差错率。为了仅将损伤限制在受影响区域并节省无差错接收的比特,双向解码还可进行反姠解码基于前向检测到的差错,解码器会停止其搜索下一个同步字当解码器在同步码字处恢复了同步时,再由反向恢复操作对前向操作中跳过的数据段解码。

  为了实现双向路解码须采用可逆VLC(即RVLC)。可逆码字是变长编码可以前向和后向解码,产生同样的输出可采用以下几个技术产生可逆VLC码(Takashima,Wada and Murakami1995;Watanabe,1996):其一是生成恒重码(二进制序列中1的数目)另一种生成恒重RVLC码表的方法是,利用一个码字第一符号嘚固定数目或者说,如果解码器从0开始解码则在码字中搜索固定长度的0,反之亦然

  由于在每个码字中第一个被检测到的符号数目可以确定,这些码字都能双向解码除了恒定码重策略,其他生成RVLC表的方法是在每个码字中分配固定数目的0、1在这种情况下,RVLC码可能嘚设定由01、10、0011、1100、001011、000111、110100等组成相比于优化的Huffman码,双向可解码的编码比特率增加2~3个百分点

  5、EREC(差错弹性的熵编码)

  尽管双向解码算法提高了抑制同步丢失的效率,但是相关联的可逆VLC码字在编码比特流中引入了不必要的开销EREC通过在各种视频参数的连续传输间提供转換,显著提高了编码视频流的差错弹性视频通信中差错最具破坏性的作用是使解码器丢失同步,这源于视频参数的变长码和两个连续同步字之间参数的可变数目EREC试图使用定长的时隙结构来重组变长码,使得每个VLC码的起始总是跟定长时隙起始位置相一致定长时隙长短由編码器决定,并在传送该时隙之前放在视频块首发送给解码器。如果解码器检测到VLC码中有比特差错同步总在下一个时隙开始时恢复,洇此限制了受损时隙中的比特差错损伤

  三、组合的误码弹性工具

  除了前述独立的差错弹性机制,在视频编码算法中还可以使用組合技术来优化差错弹性弹性技术具有多种选择,为了获得拟选的优化视频质量我们应选择特定分组段。例如分组的第一部分是由所包含宏块的轮廓和运动编码数据组成的,尚包含有关的管理数据如COD标志和MCBPC。第二部分包含变长的DCT数据和某些符合标准的控制数据如CBPY囷差分量化步长(DQUANT)。为了在差错发生时解码器能在重要的第一部分中自动恢复同步,采用EREC将编码的运动矢量放入定长时隙使用HEC(信头扩展碼)标志,对每个视频帧中重要的头部数据在视频分组中被复制,来减少在视频序列中剔除的帧数进一步说,第二部分的TCOEFF系数(DCT数据)采用RVLC碼字而便于后向解码减少了由于同步丢失而抛弃的DCT数据。第一部分的运动矢量也可采用可双向解码的编码方式但是EREC则取消了可逆VLC码介叺的开销。实验表明组合差错弹性技术所改善的客观质量(以110kbit/s和25f/s的速率采用MPEG-4编码的Suzie序列)首先,应用数据分割将帧中编码的运动矢量(第一部汾)和纹理数据(第二部分)分开对第一部分的运动数据应用EREC;而当解码器标志第二部分出错时,DCT数据采用可逆的VLC码可对DCT系数双向解码;进洏,采用半码率的Turbo码来保护第一部分的头部数据

  差控策略用来减轻传输差错对解码视频质量的影响,策略的选择依赖于很多因素洳在双向和多点通信中介入的延迟、误码恢复技术带来的比特率开销、处理过程的复杂度等,这是任何系统应用需要设计的问题

  信噵差错对感觉视频质量有着决定性影响,可以有各种形式然而,最有破坏性的信道差错会导致解码端的同步丢失由于在视频编码算法Φ应用了时间和空间预测,差错会在视频序列范围内从时间和空间上迅速传播为了限制这种差错传播并减轻其影响,采用了差控机制来滿足用户需求和期望最简单的差控技术是当受到传输差错影响,需要隐蔽出现在视频内容中的“马赛克”这些技术基于解码器,则在壓缩视频流中不必增加开销另一类差控技术包含一些力图阻止差错在时空间累积的机制。这类技术中最典型的代表是INTRA更新该技术以规則的时间间隔发送INTRA帧。改进后的自适应INTRA更新(AIR)是以INTRA模式发送预定数目的运动宏块每帧发送一次。

由于AIR在更规则的间隔上更新视频场景中最活跃的部分比INTRA更新获得更稳定的视频质量。再一类差控机制是致力于检测到差错时恢复同步的机制这类差错弹性机制的例子有EREC和双向解码。EREC将变长码放到预置的定长时隙中当解码器不能完成对当前VLC码解码时,其能在下一时隙起始处恢复同步这样就减少了由于丢失同步而抛掉的比特数目。当编码视频流遇到传输差错时双向解码是最小化有效误码率的高效算法。双向解码是解码器能对比特流双向解码来恢复全部或部分在前向解码中扔掉的比特流。为了使解码器能反向解码在比特流中采用了可逆码字。


H.264 像素块预测与运动补偿
摘 要:夲文详细分析了像素块预测与运动补偿技术 
关键词:像素块预测 运动补偿 信源编码

AVC标准中的基本预测技术是基于块,而不是基于对象的它的编码器是利用混合的编码方案来提高编码效率,这些方案包括高级的预测技术和有效熵编码技术在运动预测中它使用不同的块的夶小进行预测,以树结构的方式来组织预测模式其主要的特点也包含在多参考帧预测方式和通用B帧的概念上。H.264像素块预测编码包括帧内塊预测和帧间块预测而帧内块预测在H.264中占有极重要的地位。在图像信号压缩编码中由于亮度信号和色差信号是分别进行处理的,因此预测又可分亮度信号预测和色差信号预测。下面就两种不同预测方式分别加以讨论

在H.264/AVC中采用的预测编码方法与在14496-2标准的MPEG-4视频编码规范鈈同,帧内预测是在变换编码之前进行的在H.264/AVC标准的帧内预测中,当前块的抽样值总是利用邻块的抽样值来获取这样也许会因为在相邻嘚帧间编码的宏块的运动补偿误差而引起图像误差的扩散。因此在图像编码过程中还有一种限制帧内编码模式,此时只允许相邻的帧内預测宏块为已知才可以作为其他当前宏块的参考宏块

H.264根据相邻像素可能有相同的性质,利用相邻像素的相关性采用了新的帧内(Intra)预測模式。通过当前像素块的左边和上边的像素(已编码重建的像素)进行预测只对实际值和预测值的差值进行编码,这样就能用较少的仳特数来表达帧内编码的像素块信息在H.264标准中,亮度块可以有9种4×4块和4种16×16块的帧内预测模式而色度8×8块的4种模式与亮度的4种16×16块的模式相同。对于每个4×4块(除了边缘块特别处置以外)每个像素都可用17个最接近的先前已编码的像素的不同加权和(有的权值可为0)来預测,即此像素所在块的左上角的17个像素显然,这种帧内预测不是在时间上而是在空间域上进行的预测编码算法,可以除去相邻块之間的空间冗余度取得更为有效的压缩。如图1所示4×4方块中a、b、…、p为16个待预测的像素点,而A、B、…、P是已编码的像素按照所选取的預测参考的点不同,亮度共有9类不同的模式但色度的帧内预测只有1类模式。

4×4帧内预测方法用于对图像细节部分进行编码它的基本思蕗是从不同的方向计算、比较块中各个像素之间的亮度差值,即梯度值通过选择具有最小预测误差的方向作为最佳的预测方向。下面对其中的预测模式举例说明如图1所示,其中4×4块中16个抽样值(a~p)是由先前解码邻近宏块抽样值(A~Q)利用各种预测模式预测得来这种預测模式共有8个方向,加上各像素作平均计算共9种模式

2. 4×4帧内预测模式编码过程

每个4×4块的帧内预测模式的选择一定会告知解码器,这鈳能需要很多比特然而,附近的4×4块的帧内模式是非常相关的举例来说,如果图2里的先前编码的4×4块A和B是使用模式2预测的块C(当前塊)的最佳模式很有可能也是模式2。对于每个当前块C编码器和解码器计算最合适的模式most_probable_mode。如果A和C都在4×4帧内模式中编码且都在当前的slice層中,最合适的模式(most_probable_mode)是A和C预测模式的最小量;否则most_probable_mode 被设定成模式2(直流预测)

3. 亮度信号16×16帧内预测

16×16预测方式是基于在16×16块的基础仩,用于对图像中的相对不变的部分进行编码它只有四种预测方式,分别为垂直预测方式、水平预测方式直流预测方式和平面预测方式。用一个4×4亮度分量的可选模式可预测一个宏块的整个16×16亮度分量,有4种模式

模式0:(垂直预测)由上面的抽样值插补(H);

模式1:(水平预测)由左边的抽样值插补(V);

模式2:(直流预测)由上面的和左侧的抽样值平均数插补(H+V);

模式4:(平面预测)由上面的囷左侧的抽样值插补。

线性“平面”可设置由上面和左侧的抽样值H和V插补 这在平滑的亮度区域效果较好。

4. 色度信号的帧内预测

一个宏块嘚每个8×8色度分量借助于上面的和左面的已被编码、重建的色度分量抽样值进行预测由于色度在图像中是相对平坦的,其预测方法与16×16煷度信号帧内预测相似方式进行因此也有四种帧内预测模式:垂直预测(模式0),水平预测(模式1)直流预测(模式2)和平面预测(模式3)。

帧间预测是利用先前已编码帧的图像作为参考图像对当前图像进行预测的一种方式它把参考图像的抽样点通过运动矢量的补偿莋为当前图像抽样值的参考值。H.264/AVC标准中使用了从H.261标准以来主要标准中使用的块结构运动补偿然而,它与早期标准最大区别在于:①支持哆种块结构的预测;②运算精度能精确到1/4像素

在H.264/AVC标准中还使用了H.263标准中曾使用过的多帧预测的方法,主要思想是增加运动矢量中时间轴嘚估计参考帧数在宏块的级别上,允许选择一个或几个前面视频帧作为参考帧用于运动补偿的多帧预测方式在大多数情况下会明显改善预测增益。

下面我们就以在两种不同类型的片(slice)中使用的帧间预测方式进行讨论在说明它们之前我们首先介绍树结构的运动补偿,其中主要简述了宏块的分块

帧间预测用于降低图像的时域相关性,通过采用多帧参考和更小运动预测区域等方法对下一帧精确预测,從而减少传输的数据量每个亮度宏块被划分成形状不等的区域,作为运动描述区域如图4所示,其划分方法有16×1616×8,8×168×8 共4种。当選用8×8方式时可以进一步划分成8×8,8×44×8和4×4共4个子区域。每个区域包含自己的运动向量每个运动向量和区域选取信息必须通过编碼传输。因此当选用较大区域时,用于表示运动向量和区域选取的数据量减少但运动补偿后的残差会增大;当选用小区域时,残差减尐预测更精确,但用于表示运动向量和区域选取的数据量增大大区域适合反映帧间同质部分,小区域适合表现帧间的细节部分

在H.264中,运动预测的精度也有所改进对QCIF(144×176像素)格式的图像,使用1/4像素精度;对CIF(288×352 像素)格式的图像使用1/8 像素精度。其中1/4 像素插值是先使用一个6抽头滤波器进行水平和垂直滤波得到半像素插值点,然后对其进行线性插值;而1/8 像素插值是直接使用一个8抽头滤波器进行水平囷垂直滤波

在帧内编码模式下,H.264 对空间系数进行双向预测而不是对变换后的系数进行预测(见H.263+的先进帧内预测模式)。另外与H.263+的附錄N类似,H.264支持参考帧可选模式即在编码后续图像时,可以从编码缓存中选择使用前面的参考帧(多于一帧)进行运动估值

H.264 除了支持I 帧、P 帧和B 帧外,还提出了一种新的图像类型SP 帧SP帧也是预测编码帧,根据需要可以改变用于该帧预测的图像SP帧可用于信道速率的改变、视頻比特流的切换和码流随机接入等操作,在时变无线信道上的视频通信和流媒体传输中有广泛的应用前景

1. 树结构的运动补偿

H.264采用了不同夶小和形状的宏块分割与亚分割的方法。一个宏块的16×16亮度值可以按照16×16、16×8、8×16或8×8进行分割;而如果选择了8×8分割还可以按照8×8、8×4、4×8或4×4进行亚分割,如图5所示这些宏块分割与亚分割的方法将会使得每个宏块中包含有许多不同大小块。利用各种大小的块进行运動补偿的方法我们将称为树结构的运动补偿(tree structured compensation)宏块分割与亚分割所产生的每一个亮度块都有自己独立的运动矢量。对于宏块中色度值分割方法是和亮度一样的,但是由于4∶2∶0采样的关系色度分割块的大小是亮度分割块的一半,而且当色度块在利用运动矢量时必须偠将它各个分量除以2。其次H.264可以达到1/4像素的运动精度,这是通过利用整像素点的亮度值进行内插得到的内插过程先是通过6抽头的滤波器来获得半像素精度,然后用线性滤波器来获得1/4像素的精度又由于4∶2∶0采样的关系,色度的运动精度就达到1/8像素这也是通过线性滤波器插值得到的。由于运动矢量之间也有一定的相关性所以H.264就利用已经编码块的运动矢量对当前未编码块的运动矢量进行预测,最后只需偠编码和传输实际运动矢量与预测值的差值即可

再次,H.264还可以采用多参考图像(最多前向和后向各5帧)来进行运动预测这样可以对周期性运动,平移封闭运动和不断在两个场景间切换的视频流有效果非常好的运动预测使用了多参考图像,H.264不仅能够提高编码效率同时吔能实现更好的码流误码恢复,但需要增加额外的时延和存储容量

最后,H.264也在B图像中利用后向运动预测这和以前的标准是一致的,但鈈同的是B图像通过加权也能作为其他图像的参考图像

在H.264/AVC标准中获得运动补偿的块结构大小不再局限于在宏块的基础上,可以从宏块的分塊或子分块中获取运动矢量

每个运动矢量都将会被编码、传送,另外分块方式也必须被编码在数据流中选择大的分块方式(16×16、16×8或8×16)也许只需要传送很少的比特用于说明运动矢量和分块方式,但是运动补偿后抽样点差值也许将会比较大选择小的分块方式(8×4或4×4)也许能得到很小运动补偿后抽样点差值,但是要花费很多比特去传输运动矢量和分块方式因此对于分块的选择将会对压缩效果有着重夶的影响。通常大的分块方式用于帧内均匀的部分,而小的分块方式将有利于图像中细节描述每个色度块将按照亮度的分块方式进行汾块。由于宏块中色度分辨率是亮度分辨率的一半因此色度块的大小不管在水平还是垂直方向上都只是亮度块的一半。同时色度块上垂直运动向量和水平运动向量也只是亮度块的一半。

2. 在P类型片中的帧间预测

以往一般的视频压缩的最高运动估计精度为半像素(half pixel),比洳在14496-2标准(即MPEG-4视频编码部分)中的基本补偿技术就是采用半像素精度采用的内插方法也是简单的双线性内插法,其补偿的质量也是相对於较低的与上述不同的是,在H.264/AVC标准中的运动估计精度要求达到1/4(quarter pixel)精度

在H.264/AVC标准中,对于P类型的片编码时可以采用多帧运动补偿预测吔就是超过一个先前编码帧可作为当前帧运动补偿的参考帧。

多帧预测需要解码器和编码器在缓冲中存贮多帧图像作为参考帧解码器则利用比特流中参数设置信息内存管理控制操作(memory management control operation)去复制编码器相同的多帧缓冲。同时对于每个运动补偿的16×16、16×8、8×16或8×8块及其子块需傳送参考索引参数用于确定该块或子块参考帧在缓存中的位置。P类型片预测方式是与宏块中块相对应的也即是与前面所介绍宏块中分塊相对的。在P类型片中预测模式不仅仅只有表中所描述6种类型还可以包括帧内预测模式。另外对于P_8×8类型预测方式它是对应于8×8块的預测,还可以有子分块上预测模式

3. 在B类型的片中帧间预测

与先前图像编码标准相比,在H.264/AVC标准中B类型片的概念得到推广最大特点是由B类型片所组成B帧可以作为其他图像的参考帧。B类型片与P类型片最本质的区别是在B类型片中宏块或其子块的预测值是通过两个不同运动补偿值加权平均后取得的B类型片使用两组不同参考图像,分别为list0(前向参考图像集)和list1(后向参考图像集)

在B类型片中,四组不同的宏块预測方式将支持下面四种模式:①直接方式(direct mode):这种方式不需要传送运动矢量等附加信息(side information)②单向预测方式(inter mode):只需传送1个宏块预測信息。③多假设预测方式(multihypothesis mode):需传送两个宏块预测信息④帧内预测方式(intra mode)。下面我们分别具体介绍直接预测方式和多假设预测方式

直接方式使用双向预测方式,传送预测差值这种方式前向和后向运动矢量(mv0,mv1)是通过随后的参考图像(RL1)上公共确定宏块(co-located macroblock)的運动矢量(mvc)计算得到的使用直接预测方式的宏块与公共确定宏块应具有相同的分块。

其中MV0为前向运动矢量MV1为后向运动矢量,MVC代表着隨后帧间图像公共确定块运动矢量对于先前B帧概念而言,TDD为当前帧前一帧与后一帧相差的时间TDB为当前B帧图像与前一帧的时差。当使用哆帧预测后这种概念发生变化。TDB为当前帧与其前向参考帧RL0之间的时差而TDD为前向参考帧RL0与后向参考帧RL1之间的时差。在H.264/AVC标准中直接预测方式因对预测信号进行混合加权运算,比先前标准中使用平均加权方式得到改善这种技术最适合音乐电视和电影结尾的使用,它们通常昰场景慢慢衰弱的特别是在电影的结尾,场景逐渐衰弱成黑幕在先前标准中没有好的压缩方式这种情况很难编码。如果把这种现象编碼成PBBB模式由于平均加权将使得第一和第三个B帧相对于周围的帧内、帧间帧及第二个B帧有较大的图像恶化,而基于帧间相对距离的混合加權方式却可以大大改善

其中c为当前B帧中宏块或块中抽样值,cp为前向参考图像预测宏块或块中抽样值cs为后向参考图像预测宏块或块中抽樣值。

多假设预测方式需要叠加由两个运动矢量所预测两个宏块预测值我们把每个块预测值称为假设(hypotheses)。最后预测块通过两个假设的運动矢量得到的预测值平均后得到多假设预测与双向预测方式不同。双向预测方式只允许前后向预测对线性组合而成见图8。而多假设預测方式取消这种限制它可以一个方向上预测对来获取最终的预测值。可以(前向前向)或(后向,后向)进行预测

当第一个假设來源于先前参考图像而第二个假设来源于后向参考图像时,多假设预测方式也可以成为双向预测方式

近年来,随着我国通信网络基础设施的快速建设视讯业务由于可以为处于多点的与会者提供音视频等多种信息,节省大量费用提高工作效率,因而发展迅速并有望成為NGN的主要业务。视讯会议系统从产生至今发展了多种适于各类通信网络的系统,目前传输多媒体信息的主要有H.323、H.324和H.320等系统IP技术的开放性特点使得它非常适合承载多种业务,随着IP的安全和QoS等问题的逐步解决以IP作为承载网的优势将更加明显,下一代网络也将采用IP技术作为承载网技术因此,本文以适用于在IP网上提供多媒体业务的H.323系统为主进行阐述H.264是由JVT为实现视频的更高压缩比,更好的图像质量和良好的網络适应性而提出的新的视频编解码标准事实证明,H.264编码更加节省码流它内在的抗丢包、抗误码能力和良好网络适应性使它非常适于IP傳输,H.264有望成为H.323系统中首选的视频标准 
H.323系统对视频编解码标准提出了以下三个主要要求: 
(1)一些IP网络接入方式如xDSL可提供的带宽有限,除去音频、数据占用的带宽传输视频的可用带宽就更少,这就要求视频编解码压缩率高这样就可以在一定的比特率下具有更好的图像質量。 
(2)抗丢包性能和抗误码性能好适应各种网络环境,包括丢包和误码严重的无线网络 
(3)网络适应性好,便于视频流在网络中傳输 
H.264在制定时充分考虑了多媒体通信对视频编解码的各种要求,并借鉴了以往视频标准的研究成果因而具有明显的优势。以下将结合H.323系统对视频编解码技术的要求阐述H.264的三个优势。 
1. 压缩率和图像质量方面 
对传统的帧内预测、帧间预测、变换编码和熵编码等算法的改进使H.264的编码效率和图像质量在以往标准的基础上进一步提高。 
(1)可变块大小:帧间预测时可以灵活选择块的大小在宏块(MB)划分上H.264采鼡了16×16,16×88×16,8×8四种模式;当划分为8×8模式时又可进一步采用8×4、4×8、4×4三种子宏块划分模式进一步划分,这样可以使运动物体的劃分更加精确减小预测误差,提高编码效率帧内预测一般采取两种亮度预测模式:Intra_4×4和Intra_16×16。Intra_4×4适合图像中细节丰富的区域而Intra_16×16模式哽适合粗糙的图像区域。 
(2)高精度运动估值:在H.264中亮度信号运动补偿预测的精度是1/4像素如果运动矢量指向参考图像的整像素位置,预測值就是该位置上参考图像像素的值;否则使用6阶FIR滤波器的线性内插获得1/2像素位置的预测值通过取整数和1/2像素位置像素值均值的方式获嘚1/4像素位置的值。显然采用高精度运动估计会进一步减小帧间预测误差 
(3)多参考帧运动估值:每一个M×N亮度块都要经过运动补偿预测嘚到运动矢量和参考图像索引,子宏块中的每个子宏块划分都会有不同的运动矢量选择参考图像过程是在子宏块层次上进行的,因而一個子宏块中的多个子宏块划分在预测时使用相同的参考图像而同一个slice的多个子宏块之间选择的参考图像可以不同,这就是多参考帧运动估值 
(4)参考图像的选取更加灵活:参考图像甚至可以是采用双向预测编码方式的图像,这就允许选取与当前图像更加匹配的图像为参栲图像进行预测从而可以减小预测误差。 
(5)加权预测:允许编码器以一定的系数对运动补偿预测值进行加权从而在一定的场景下可鉯提高图像质量。
(6)运动补偿循环内的消除块效应滤波器:为消除在预测和变换过程中引入的块效应H.264也采用了消除块效应滤波器,但鈈同的是H.264的消除块效应滤波器位于运动估计循环内部因而可以利用消除块效应以后的图像去预测其他图像的运动,从而进一步提高预测精度 
参数集、片的使用、FMO、冗余片等关键技术的使用可以大大提高系统的抗丢包和抗误码性能。 
(1)参数集:参数集及其灵活的传送方式会大大降低因关键的头信息丢失而造成错误发生的可能为保证参数集可靠地到达解码器端,可以采用重发的方式多次发送同一参数集或传送多个参数集。 
(2)片(slice)的使用:图像可以划分成一个或几个片将图像划分为多个片,当某一片不能正常解码时的空间视觉影響就会大大降低而且片还提供了重同步点。 
(3)PAFF和MBAFF:当对隔行扫描图像进行编码时由于两个场之间存在较大的扫描间隔,这样对运動图像来说帧中相邻两行的空间相关性相对于逐行扫描时就会减小,这时对两个场分别进行编码会更节省码流对帧来说,存在三种可选嘚编码方式将两场合并作为一帧进行编码或将两场分别编码或将两场合并起来作为一帧,但不同的是将帧中垂直相邻的两个宏块合并为宏块对进行编码前两种称为PAFF编码,对运动区域进行编码时场方式有效非运动区域由于相邻两行有较大的相关性,因而帧方式会更有效当图像同时存在运动区域和非运动区域时,在MB层次上对运动区域采取场方式,对非运动区域采取帧方式会更加有效这种方式就称为MBAFF。 
(4)FMO:通过FMO可以进一步提高片的差错恢复能力通过片组(slice group)的使用,FMO改变了图像划分为片和宏块的方式宏块到片组的映射定义了宏塊属于哪一个片组。利用FMO技术H.264定义了七种宏块扫描模式。图1给出了其中一种模式的示例 
如图1所示,阴影部分宏块属于片组0白色部分屬于片组1。假设片组0在传输过程中丢失由于丢失宏块的相邻宏块都属于片组1,这样差错恢复工具就会有更多的可利用信息来恢复丢失片嘚数据片组可以进一步划分为大小合适的片以适应网络的MTU值。 
(1)帧内预测:H.264借鉴了以往视频编解码标准在帧内预测上的经验值得注意的是,在H.264中IDR图像可以使参考图像缓存无效,之后的图像在解码时不再参考IDR图像之前的图像因而IDR图像具有很好的重同步作用。在一些丟包和误码严重的信道中可以采取不定期传送IDR图像的方式进一步提高H.264的抗误码和抗丢包性能。 
(2)冗余图像:为提高H.264的解码器在发生数據丢失时的顽健性可以采用传送冗余图像的方式。当基本图像丢失时可以通过冗余图像重构原图像。 
(3)数据划分:由于运动矢量和宏块类型等信息相对于其他信息具有更高的重要性因而在H.264中引入了数据划分的概念,将片中语义彼此相关的语法元素放在同一个划分中在H.264中有三类不同的数据划分,三类数据划分分开传送若第二类或第三类划分的信息丢失,使用差错恢复工具仍然可以通过第一类划分Φ的信息对丢失信息进行适当恢复 
(4)多参考帧运动估值:多参考帧运动估值不但可以提高编码器的编码效率,还可以提高差错恢复能仂在H.323系统中,通过使用RTCP当编码器得知有参考图像丢失时,可以选择解码器已经正确接收的图像作为参考图像 
(5)为阻止错误在空间仩的蔓延,解码器端可以指定当P片或B片中的宏块在做帧内预测时不使用相邻的非帧内编码宏块作为参考 
为适应各种网络环境和应用场合,H.264定义了视频编码层(VCL)和网络提取层(NAL)其中VCL功能是进行视频编解码,包括运动补偿预测变换编码和熵编码等功能;NAL用于采用适当嘚格式对VCL视频数据进行封装打包。H.264编解码器的层结构如图2所示 
Units:视频数据封装在整数字节的NALU中,它的第一个字节标志该单元中数据的类型H.264定义了两种封装格式。基于包交换的网络(如H.323系统)可以使用RTP封装格式封装NALU而另外一些系统可能要求将NALU作为顺序比特流传送,为此H.264萣义了一种比特流格式的传输机制使用start_code_prefix将NALU封装起来,从而确定NAL边界 
(2)参数集:以往视频编解码标准中GOB/GOP/图像等头信息是至关重要的,包含这些信息的包的丢失常导致与这些信息相关的图像不能解码为此H.264将这些很少变化并且对大量VCL NALU起作用的信息放在参数集中传送。参数集分为两种即序列参数集和图像参数集。为适应多种网络环境参数集可以带内传送,也可以采用带外方式传送 
由于H.264是一种新的视频編解码标准,在H.323体系中应用H.264存在一些问题比如如何在H.245能力协商过程中定义实体的H.264能力,因此必须对H.323标准进行必要的补充和修改为此,ITU-T淛定了H.241标准本文仅介绍与H.323相关的修改。 
AnnexA中定义的15个可选的Level值其他的几个参数作为可选项出现。 
作为一种新的国际标准H.264在编码效率、圖像质量、网络适应性和抗误码方面都取得了成功。但随着终端和网络的快速发展对视频编解码的要求在不断提高,因此H.264仍在继续地完善和发展以适应新的要求现在对H.264的研究主要集中在如何进一步降低编解码时延、算法优化和进一步提高图像质量上。目前使用H.264进行编解码的视频会议系统越来越多,大多数做到了在Baseline Profile上的互通随着H.264自身的不断完善和视频通信的不断普及,相信H.264的应用将越来越广泛

AVS是中國自主制定的音视频编码技术标准。AVS工作组成立于2002年6月在短短的一年多时间内,审议了182个提案先后采纳了41项提案, AVS视频部分于2003年12月定稿AVS标准以当前国际上最先进的MPEG-4 AVC/ H.264框架为起点,自主制定适合广泛数字视频应用的中国标准其中强调自主知识产权,同时充分考虑实现难喥 
AVS与MPEG-4 AVC/ H.264标准的主要技术差异包括:8x8整数变换、量化、帧内预测、1/4精度像素插值、特殊的帧间预测运动补偿、二维熵编码、去块效应环内滤波等。 
AVS采用整数8x8变换它可以在16位处理器上无失配地实现,从而克服了MPEG-4 AVC/ H.264之前所有视频压缩编码国际标准中采用的8x8 DCT变换存在失配的固有问题而MPEG-4 AVC/ H.264所采用的4x4整数变换在高分辨率的视频图像上的去相关性能不及8x8的变换有效。AVS采用了64级量化可以完全适应不同的应用和业务对码率和質量的要求。目前AVS所采用的8x8变换与量化方案大大降低了芯片的实现难度(即可大大降低芯片功耗这一点对移动类产品是十分宝贵的)。參照MPEG-4 AVC/ H.264帧内预测的思路AVS采用帧内预测技术,用相邻块的像素预测当前块同时采用代表空间域纹理方向的多种预测模式。但AVS亮度和色度帧內预测都是以8x8块为单位的亮度块采用5种预测模式,色度块采用4种预测模式而这4种模式中又有3种和亮度块的预测模式相同。在编码质量楿当的前提下AVS采用较少的预测模式,使方案更加简洁、实现的复杂度大为降低 
帧间运动补偿编码是混合编码技术框架中最重要的部分の一。AVS标准采用了16×1616×8,8×16和8×8的块模式进行运动补偿而去除了MPEG-4 AVC/ H.264标准中的8×4,4×84×4的块模式,目的是能更好地刻画物体运动提高運动搜索的准确性。实验表明对于高分辨率视频,AVS选用的块模式已经能足够精细地表达物体的运动较少的块模式,能降低运动矢量和塊模式传输的开销从而提高压缩效率、降低编解码实现的复杂度。 
AVS和MPEG-4 AVC/ H.264都采用了1/4像素精度的运动补偿技术MPEG-4 AVC/ H.264采用6抽头滤波器进行半像素插徝并采用双线性滤波器进行1/4像素插值。而AVS采用了不同的4抽头滤波器进行半像素插值和1/4像素插值在不降低性能的情况下减少插值所需要的參考像素点,减小了数据存取带宽需求这在高分辨率视频压缩应用中是非常有意义的。 
在传统的视频编码标准(MPEG-x系列与H.26x系列)中双向預测帧B帧都只有一个前向参考帧与一个后向参考帧,而前向预测帧P 帧则只有一个前向参考帧而新近的MPEG-4 AVC/ H.264充分地利用图片之间的时域相关性,允许P帧和B帧有多个参考帧最多可以有31个参考帧。多帧参考技术在提高压缩效率的同时也将极大地增加存储空间与数据存取的开销AVS中P幀可以利用至多2帧的前向参考帧,而B帧采用前后各一个参考帧P帧与B帧(包括后向参考帧)的参考帧数相同,其参考帧存储空间与数据存取的开销并不比传统视频编码的标准大而恰恰是充分利用了必须预留的资源。 
mode)使用对称模式时,码流只需要传送前向运动矢量后姠运动矢量可由前向运动矢量导出,从而节省后向运动矢量的编码开销对于直接模式,前块的前、后向运动矢量都是由后向参考图像相應位置块的运动矢量导出无需传输运动矢量,因此也可以节省运动矢量的编码开销跳跃模式的运动矢量导出方法和直接模式的相同,跳跃模式编码块的运动补偿的残差也均为零即该模式下宏块只需要传输模式信号,而不需要传输运动矢量、补偿残差等附加信息

AVS熵编碼采用自适应变长编码技术。在AVS熵编码过程中所有的语法元素和残差数据都是以指数哥伦布码的形式映射成二进制比特流。采用指数哥倫布码的优势在于:一方面它的硬件复杂度比较低,可以根据闭合公式解析码字无需查表;另一方面,它可以根据编码元素的概率分咘灵活地确定以k阶指数哥伦布码编码如果k选得恰当,则编码效率可以逼近信息熵

对预测残差的块变换系数,经扫描形成(level、run)对串level、run不是独立事件,而存在着很强的相关性在AVS中level、run采用二维联合编码,并根据当前level、run的不同概率分布趋势自适应改变指数哥伦布码的阶數。 
AVS标准的主要特点是应用目标明确技术有针对性。因此在高分辨率应用中其压缩效率明显比现在在数字电视、光存储媒体中常用的MPEG-2視频提高一个层次。在压缩效率相当的前提下又较MPEG-4 AVC/ H.264的 main profile的实现复杂度大为降低。
目前的AVS视频技术可实现标准清晰度(CCIR 601或相当清晰度)、低清晰度(CIF、SIF)等不同格式视频的压缩但针对此类应用的压缩效率还有待提高,这应当是AVS视频下一步的工作重点
二、AVS面临的机遇与挑战
數字音视频编解码标准是数字音视频产业的基础标准,在广电、电信和消费类电子产品等领域具有巨大的产业需求跨入新世纪以来,随著编解码技术本身的进步和芯片集成度和计算速度的迅速提高数字音视频编解码技术标准面临更新换代的历史性机遇。在数字电视、高清晰度视盘、流媒体和多媒体通信这个即将来临的产业大潮中AVS 标准为我国构建“技术-专利-标准-芯片与软件-整机与系统制造-数芓媒体网络”的产业链提供了难得机遇。
中国数字音视频产业的市场是非常庞大的而在市场经济的浪潮中,企业追求的是快速高效的市場占有率和利润在MPEG-4 AVC/ H.264与AVS标准的选择上,企业看中的是技术的成熟与可靠(实质上是成熟可靠的专用芯片及完整的系统解决方案)AVS应当首先在这方面下功夫,以便在相关行业造成既成事实的行业标准同时力争将其纳入国际标准。AVS产业联盟首次筹备会的召开意味着各企业將组织起来,把有限的资金通过分工合作的方式在AVS方面组成完整的产业链使我国的音视频产业少受制约。通过AVS产业联盟获取国家更多嘚支持;同时通过联盟的内部规则和约束手段,尽量规范市场、避免恶性竞争
AVS工作组组长高文介绍说,2005年以前是AVS的产业化推进期,AVS编解码器软件已经实现在此基础上,AVS卫星端到端直播系统已经在鑫诺卫星上试播成功2005~2008年,是AVS的增长成熟期从2005年开始,计划AVS解码器年蔀署量超过1000万台2008~2015年,是AVS的平稳期在此期间,AVS解码设备年均产量将达到4000万

据估计,2004年到2012年中国国内将会销售4亿台数字电视机(含機顶盒)和激光视盘机,如按照MPEG-2每台设备需要交2.5美元的专利使用费我国相关企业将会需要付出近10亿美元的代价。而加速推进AVS的产业化可鉯节省相当可观的MPEG-2专利费从技术上来看,如果利用MPEG-2技术传送高清晰电视需占20M带宽用AVS技术传送同样质量的节目只要8Mbit/s带宽。如果利用现有MPEG-2技术现有DVD盘片只能存二十几分钟的高清节目,而利用AVS技术单张DVD盘片可放一部高清电影。AVS的产业化不仅可以节省相当可观的专利费还能节省信道资源和光盘存储资源,为我国数字电视等音视频产业和相关芯片产业提供跨越发展的技术源头让我国AV产业在竞争中直起腰杆。中国AVS工作组首席顾问、美国MPEG前视频组组长CliffReader先生公开表示中国AVS将是世界第一个高清DVD标准、第一个高效编码高清数字电视标准。
AVS标准是一個极具战略性的领域它会影响到从多媒体数字信号编解码器芯片和移动网络到数字电视、高清晰度光盘和宽带网络应用程序等等重大关鍵数字音视频前端系统与信息家电产业。AVS标准包括系统、视频、音频、数字版权管理等四个主要技术标准和一致性测试等支撑标准最初嘚应用领域主要有两个。首先是新一代EVD也被称作EVD2。这种光盘规格处理的是1080p格式视频图像另一个就是中国的卫星电视。将用于中国计划奣年开通的卫星电视(DBS)有关将AVS用于3G移动通信系统的研究工作最近已经开始。

三、AVS的发展是一个系统工程
AVS标准的制定在整个产业链中是龍头地位可以带动整个产业链的发展,标准化是为了规范不同设备制造商的产品实现互通和兼容是支持社会化大生产的一种重要机制。制定我国的AVS视频标准今后生产DVD、数字电视、手机、多媒体通信及视讯会议等新兴音视频产品的企业不用再因技术和专利使用费等受制於人。
我们要充分认识到一个标准的制定是否能取得预期的成功会受到很多因素的影响它的发展是一项系统工程。现代市场经济使得企業在做决策时非常实际政府的干预只能在一定的限度内。只有当AVS标准及相关核心芯片和系统与当前MPEG-4 AVC/ H.264标准相比具备充分的优势时才能赢嘚众多整机生产厂商的青睐。
AVS的发展速度始终是一个关键性因素许多生产厂商决不愿意做冒险尝试,他们希望有成熟稳定的芯片和系统設计一旦选定一项,很难再下决心重新选择新的芯片和系统设计除非能充分证明新系统有很好的性能稳定性,并能从中获得极大的利潤空间这就要求AVS标准在产业的发展初期就能迅速占领尽可能大的市场份额,从而更好地促进AVS标准的发展在“技术-专利-标准-芯片與软件-整机与系统制造-数字媒体网络”的产业链中,任何一个环节的变化都会影响到AVS标准的发展应当把它看成是一项系统工程,抓恏每个环节统筹考虑,全面发展

AVS是中国自主制定的音视频编码技术标准。AVS工作组成立于2002年6月当年8月开始了第一次的工作会议。经过7佽AVS正式工作会议和3次视频组附加会议经历一年半的时间,审议了182个提案先后采纳了41项提案,2003年12月19日AVS视频部分终于定稿!
当前AVS视频主偠面向高清晰度电视、高密度光存储媒体等应用中的视频压缩。
在2002年的最初几次会议中视频组专家统一了以当前国际上最先进的MPEG-4 AVC/ H.264框架为起点,自主制定适合既定应用的中国标准其中强调自主知识产权,同时充分考虑实现复杂度

一、AVS-视频的核心技术

AVS-视频当中具有特征性嘚核心技术包括:8x8整数变换、量化、帧内预测、1/4精度像素插值、特殊的帧间预测运动补偿、二维熵编码、去块效应环内滤波等。

AVS的8x8变换与量化可以在16位处理器上无失配地实现从而克服了MPEG-4 AVC/ H.264之前所有视频压缩编码国际标准中采用的8x8 DCT变换存在失配的固有问题。而MPEG-4 AVC/ H.264所采用的4x4整数变換在高分辨率的视频图像上的去相关性能不及8x8的变换有效AVS采用了64级量化,可以完全适应不同的应用和业务对码率和质量的要求在解决叻16位实现的问题后,目前AVS所采用的8x8变换与量化方案即适合于16位DSP或其他软件方式的快速实现,也适合于ASIC的优化实现

AVS的帧内预测技术沿袭叻MPEG-4 AVC/ H.264帧内预测的思路,用相邻块的像素预测当前块采用代表空间域纹理方向的多种预测模式。但AVS亮度和色度帧内预测都是以8x8块为单位的煷度块采用5种预测模式,色度块采用4种预测模式而这4种模式中又有3种和亮度块的预测模式相同。在编码质量相当的前提下AVS采用较少的預测模式,使方案更加简洁、实现的复杂度大为降低

帧间运动补偿编码是混合编码技术框架中最重要的部分之一。AVS标准采用了16×1616×8,8×16和8×8的块模式进行运动补偿而去除了MPEG-4 AVC/ H.264标准中的8×4,4×84×4的块模式,目的是能更好地刻画物体运动提高运动搜索的准确性。实验表奣对于高分辨率视频,AVS选用的块模式已经能足够精细地表达物体的运动较少的块模式,能降低运动矢量和块模式传输的开销从而提高压缩效率、降低编解码实现的复杂度。
AVS和MPEG-4 AVC/ H.264都采用了1/4像素精度的运动补偿技术MPEG-4 AVC/ H.264采用6抽头滤波器进行半像素插值并采用双线性滤波器进行1/4潒素插值。而AVS采用了不同的4抽头滤波器进行半像素插值和1/4像素插值在不降低性能的情况下减少插值所需要的参考像素点,减小了数据存取带宽需求这在高分辨率视频压缩应用中是非常有意义的。
在传统的视频编码标准(MPEG-x系列与H.26x系列)中双向预测帧B帧都只有一个前向参栲帧与一个后向参考帧,而前向预测帧P 帧则只有一个前向参考帧而新近的MPEG-4 AVC/ H.264充分地利用图片之间的时域相关性,允许P帧和B帧有多个参考帧最多可以有31个参考帧。多帧参考技术在提高压缩效率的同时也将极大地增加存储空间与数据存取的开销AVS中P帧可以利用至多2帧的前向参栲帧,而B帧采用前后各一个参考帧P帧与B帧(包括后向参考帧)的参考帧数相同,其参考帧存储空间与数据存取的开销并不比传统视频编碼的标准大而恰恰是充分利用了必须预留的资源。
mode)使用对称模式时,码流只需要传送前向运动矢量后向运动矢量可由前向运动矢量導出,从而节省后向运动矢量的编码开销对于直接模式,当前块的前、后向运动矢量都是由后向参考图像相应位置块的运动矢量导出無需传输运动矢量,因此也可以节省运动矢量的编码开销跳过模式的运动矢量的导出方法和直接模式的相同,跳过模式编码的块其运动補偿的残差也均为零即该模式下宏块只需要传输模式信号,而不需要传输运动矢量、补偿残差等附加信息

AVS熵编码采用自适应变长编码技术。
在AVS熵编码过程中所有的语法元素和残差数据都是以指数哥伦布码的形式映射成二进制比特流。采用指数哥伦布码的优势在于:一方面它的硬件复杂度比较低,可以根据闭合公式解析码字无需查表;另一方面,它可以根据编码元素的概率分布灵活地确定以k阶指数謌伦布码编码如果k选得恰当,则编码效率可以逼近信息熵
对预测残差的块变换系数,经扫描形成(level、run)对串level、run不是独立事件,而存茬着很强的相关性在AVS中level、run采用二维联合编码,并根据当前level、run的不同概率分布趋势自适应改变指数哥伦布码的阶数。

二、AVS-视频目前的性能与应用

AVS-视频目前定义了一个档次(profile)即基准档次该基准档次又分为4个级别(level),分别对应高清晰度与标准清晰度应用
AVS-视频的主要特点是應用目标明确,技术有针对性因此在高分辨率应用中,其压缩效率明显比现在在数字电视、光存储媒体中常用的MPEG-2视频提高一个层次在壓缩效率相当的前提下,又较MPEG-4 AVC/ H.264的 main profile的实现复杂度大为降低图1为一个高清晰度视频序列(1280 x 720、60p)的压缩实例。其中AVS采用参考软件RM5.0H.264 目前的AVS-视频技术可实现标准清晰度(CCIR 601或相当清晰度)、低清晰度(CIF、SIF)等不同格式视频的压缩,但针对此类应用的压缩效率还有待提高这应当是AVS-视頻下一步的工作重点。

我要回帖

更多关于 各个电视台的英文缩写 的文章

 

随机推荐