12장 MPEG 비디오 부호화 Ⅱ - MPEG-4, 7과 그 이후

Slides:



Advertisements
Similar presentations
자료의 표현 1. 문자 자료의 표현 2. 멀티미디어 자료의 표현. 컴퓨터일반자료의 표현 학습 목표 ◆ 컴퓨터에서 사용하는 문자 데이터의 표현 방법을 이해할 수 있다. ◆ 컴퓨터에서 사용하는 멀티미디어 데 이터의 표현 방법을 설명할 수 있다.
Advertisements

1. 도형의 연결 상태 2. 꼭지점과 변으로 이루어진 도형 Ⅷ. 도형의 관찰 도형의 연결상태 연결상태가 같은 도형 단일폐곡선의 성질 연결상태가 같은 입체도형 뫼비우스의 띠.
11장 MPEG 비디오 부호화 I ᅳ MPEG-1과 개요 11.2 MPEG MPEG-2
컴퓨터와 인터넷.
목 차 C# 언어 특징 .NET 프레임워크 C# 콘솔 프로그램 C# 윈도우 프로그램 실습 프로그래밍세미나 2.
재료수치해석 HW # 박재혁.
파워포인트 2007.
순차, 조건, 반복 이점숙 같은 문제 다르게 해결하기 순차, 조건, 반복 이점숙
최윤정 Java 프로그래밍 클래스 상속 최윤정
Entity Relationship Diagram
신호처리 실험 (Signal Processing Lab)
12장 MPEG 비디오 부호화 Ⅱ - MPEG-4, 7과 그 이후
연결리스트(linked list).
제 9 장 구조체와 공용체.
Chapter 13 Wired LANs: Ethernet.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
Error Detection and Correction
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
23장. 구조체와 사용자 정의 자료형 2.
학습목표 학습목차 다른 홈페이지의 HTML 파일 코드를 보는 방법에 대해 알아봅니다.
멀티미디어.
컴퓨터 프로그래밍 : 실습3 2장 데이터와 식.
11장. 1차원 배열.
제 1장. 멀티미디어 시스템 개요.
스크래치 언어 이해 스크래치 이용법 습득 고양이가 말을 하며 움직이는 예제 작성
CHAP 12. 리소스와 보안.
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
Method & library.
자바 5.0 프로그래밍.
프로그래밍 개요
7가지 방법 PowerPoint에서 공동 작업하는 다른 사용자와 함께 편집 작업 중인 사용자 보기
2018년 11월 05일 박성진 Web & Internet [08] 레이아웃 P1 2018년 11월 05일 박성진
HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리
15장 컬렉션 프레임워크 Section 1 컬렉션 프레임워크의 개요 Section 2 리스트 Section 3 셋
3D 프린팅 프로그래밍 01 – 기본 명령어 강사: 김영준 목원대학교 겸임교수.
컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -
ASP.NET AJAX / AJAX Control Toolkit 응용 2008 컴퓨터공학실험( I )
Clipping 이진학.
웹디자인
20 장 네트워킹과 인터네트워킹 장치 20.1 리피터(Repeaters) 20.2 브리지(Bridges)
10 장 데이터 링크 제어(Data Link Control)
데이터 베이스 DB2 관계형 데이터 모델 권준영.
웹사이트 분석과 설계 (화면 설계) 학번: 성명: 박준석.
CHAP 21. 전화, SMS, 주소록.
네트워크 환경 구축과 이미지 전송 호스트/타겟 통신 직렬 통신을 이용한 이미지 전송 수퍼 데몬 BOOTP 환경 구축
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
Chapter 1 단위, 물리량, 벡터.
클래스 : 기능 CHAPTER 7 Section 1 생성자(Constructor)
Chapter 1 단위, 물리량, 벡터.
1. 정투상법 정투상법 정투상도 (1) 정투상의 원리
Part 2 개념적 데이터 모델 Copyright © 2006 by Ehan Publishing Co. All rights reserved.
웹 사이트 분석과 설계 [디자인 리서치] 학번: 이름 : 홍지애.
발표자 : 이지연 Programming Systems Lab.
9 브라우저 객체 모델.
슬라이드 쇼의 설정 슬라이드 쇼의 실행 파일과 폴더의 관리 글꼴을 포함해서 저장 웹 페이지로 게시 압축 파일
상관계수.
컴퓨터공학과 손민정 Computer Graphics Lab 이승용 교수님
프로그래밍 언어 학습을 위한 가상실습환경 창원대학교 이수현.
.Net FrameWork for Web2.0 한석수
제 4 장 Record.
학부 컴퓨터공학부 교육과정 (학부) 2학년 4학년 3학년 1학년 1학기 2학기 IPP 자격과정 전공트랙
Power Point 예제 디자인 적용 (서식) - (디자인적용) - (원하는 디자인 선택)
플래시MX2004 디자인스쿨 Chapter 11. 플래시와 사운드.
C++ Espresso 제15장 STL 알고리즘.
7 생성자 함수.
6 객체.
Lecture #6 제 4 장. 기하학적 객체와 변환 (1).
Presentation transcript:

12장 MPEG 비디오 부호화 Ⅱ - MPEG-4, 7과 그 이후 12.5 MPEG-4 Part10/H.264 12.6 MPEG-7 12.7 MPEG-21 2009-2학기 멀티미디어시스템

12.1 MPEG-4의 개요 MPEG-4: 더 새로운 표준. 압축 외에도, 사용자 상호 작용에 큰 관심을 가짐. MPEG-4는 새로운 객체지향 부호화(object-based coding)를 채택함으로써 이전 표준과는 다름: 고 압축률을 제공할 뿐만 아니라, 또한 디지털 비디오 합성, 조작, 인덱싱, 검색에 유리. 그림 12.1은 MPEG-4 비디오가 비주얼 객체에 대해 간단한 연산에 의하여 어떻게 합성되고 조작되는지를 설명. MPEG-4 비디오를 위한 비트율은 이제 5kbps에서 10Mbps까지 넓은 범위를 포함. 2009-2학기 멀티미디어시스템

그림 12.1: MPEG-4 비디오의 합성과 조작 2009-2학기 멀티미디어시스템

MPEG-4의 개요(계속) MPEG-4(그림 12.2(b))는 완전히 새로운 표준: (a) 원하는 오디오 비주얼 장면을 만들기 위해 미디어 객체를 합성. (b) 서비스의 질(QoS: Quality of Service)을 보장하면서 전송하기 위해 미디어 데이터의 실체를 위한 비트스트림을 다중화하고 동기화함. (c) 수신측에서 오디오비주얼 장면과 상호작용 ᅳ 오디오 및 비디오 압축을 위해 진보된 부호화 모듈과 알고리즘의 툴 박스를 제공. 2009-2학기 멀티미디어시스템

그림 12.2: MPEG 표준들의 상호작용 비교: (a) MPEG-1과 2의 기준 모델(점선으로 표시된 상호작용은 MPEG-2에 의해서만 제공); (b) MPEG-4 기준 모델 2009-2학기 멀티미디어시스템

그림 12.3: MPEG-4 비주얼 비트스트림에서 장면의 비디오 객체 지향적인 계층적 기술 MPEG-4 비주얼 비트스트림의 계층적 구조는 아주 비디오 객체 지향적이므로, MPEG-1과 MPEG-2의 그것과는 매우 다름. 그림 12.3: MPEG-4 비주얼 비트스트림에서 장면의 비디오 객체 지향적인 계층적 기술 2009-2학기 멀티미디어시스템

MPEG-4의 개요(계속) 1. 비디오 객체 시퀀스(VS) ᅳ 2차원 또는 3차원, 자연적 또는 합성인 객체를 포함하는 완전한 MPEG-4 비주얼 장면을 전달. 2. 비디오 객체(VO) ᅳ 장면의 배경 또는 객체에 해당되는 임의의 (직사각형이 아닌) 형태가 될 수 있는 장면내의 특정한 객체. 3. 비디오 객체 계층(VOL) ᅳ (다중 계층의) 스케일러블 부호화를 지원하는 방법에 용이. 한 비디오 객체(VO)는 스케일러블 부호화에서 여러 개의 비디오 객체 계층들 (VOLs)을 가질 수 있고, 스케일러블 부호화가 아닌 경우에는 단일의 비디오 객체 계층(VOL)을 가짐. 4. 비디오 객체 평면의 그룹(GOV) ᅳ 비디오 객체 평면들이 함께 그룹화 되어 있음.(단계는 선택적임) 5. 비디오 객체 평면(VOP) ᅳ 특정한 순간에서 비디오 객체의 스냅사진. 2009-2학기 멀티미디어시스템

12.2 MPEG-4의 객체지향 비주얼 부호화 VOP 기반 부호화 대 프레임 기반 부호화 MPEG-1 과 MPEG-2는 VOP 개념을 지원하지 않음. 따라서, 그들의 부호화 방법은 프레임-기반(frame-based)으로 일컬어짐.(또한, 블럭-기반 부호화(blocks-based coding)로 알려져 있음) 그림 12.4(c)는 블럭-기반 부호화를 위해 두 가능한 매치가 작은 예측 오차를 야기하는 하나의 가능한 예를 실행. 그림 12.4(d)는 각각의 VOP가 임의의 형상이고, 이상적으로 현실의 객체 움직임과 일치하는 유일한 움직임 벡터를 얻는 것을 보여줌. 2009-2학기 멀티미디어시스템

그림 12.4: 블록 기반 부호화와 객체 지향 부호화의 비교 2009-2학기 멀티미디어시스템

VOP 기반 부호화 또한 MPEG-4 VOP 기반 부호화도 움직임 보상 기술을 이용: 프레임내 부호화된 VOP는 I-VOP로 불림. 프레임간 부호화된 VOP들은 만약 순방향 예측만이 이용되면 P-VOPs로 불리고, 만약 양방향 예측이 이용되면 B-VOPs로 불림. VOP들에 대한 새롭게 나타난 어려운 점: 임의의 형상을 가진다는 것인데, VOP의 질감뿐만 아니라 형상 정보도 부호화되어야 함. 주목: 여기서 질감은 실질적으로 VOP내에서 최소의 회색도(또는 색도)값인 비주얼 내용을 언급함. 2009-2학기 멀티미디어시스템

VOP 기반 움직임 보상(MC) MPEG-4에서 움직임 보상 기반 VOP 부호화는 역시 세 단계를 포함: (a) 움직임 예측 (b) 움직임 보상 기반 예측 (c) 예측 오차의 부호화 현재(목표) VOP의 VOP내 화소만이 움직임 보상에서 매칭되기 위해 고려됨. 움직임 보상을 쉽게 하기 위해, 각 VOP는 많은 매크로블럭들(MBs)로 나눔. 매크로블럭들은 휘도 영상에서 16×16과 색도 영상에서 8×8이 기본값. 움직임 보상의 첫 번째 두 단계: 채워넣기와 움직임 벡터 부호화 2009-2학기 멀티미디어시스템

MPEG-4는 각각의 VOP를 위한 직사각형의 경계 상자를 정의.(자세한 것은 그림 12.5를 참조) 완전하게 VOP내에 있는 매크로블럭은 내부 매크로블럭(Interior Macroblocks)으로 불림. VOP의 경계에 걸쳐있는 매크로블럭은 경계 매크로블럭(Boundary Macroblocks)으로 불림. 목표 VOP에서 모든 화소가 매칭되는 것을 돕고 변환 부호화(예, DCT)에서 직사각형 블럭의 강제적인 요구사항을 맞추기 위해 채워 넣기의 전처리 단계는 움직임 예측에 앞서 기준 VOP들을 적용함. 주목: 채워 넣기는 기준 VOP에서만 일어남. 2009-2학기 멀티미디어시스템

그림 12.5: VOP의 경계 상자와 경계 매크로블럭 2009-2학기 멀티미디어시스템

그림 12.6: MPEG-4에서 기준 VOP들을 위한 채워 넣기 순서 I. 채워 넣기 기준 VOP에서 모든 경계 매크로블럭들을 위해, 수평 반복 채워 넣기가 먼저 수행되고 수직 반복 채워 넣기가 뒤따름. 그 뒤에, VOP의 밖에 있지만 하나 이상의 경계 매크로블럭들에 이웃한 모든 외부 매크로블럭(Exterior Macroblocks)들에 대해 확장 채워 넣기가 적용. 그림 12.6: MPEG-4에서 기준 VOP들을 위한 채워 넣기 순서 2009-2학기 멀티미디어시스템

다음의 수직 반복 채워 넣기 알고리즘은 유사한 방법으로 실행. 알고리즘 12.1 수평 반복 채워 넣기: 다음의 수직 반복 채워 넣기 알고리즘은 유사한 방법으로 실행. 2009-2학기 멀티미디어시스템

예제 12.1: 반복 채워 넣기 그림 12.7: 기준 VOP의 경계 매크로블럭에서 반복 채워 넣기의 예: (a) VOP내의 원 화소, (b) 수평 반복 채워 넣기 후, (c) 뒤따르는 수직 반복 채워 넣기. 2009-2학기 멀티미디어시스템

II. 움직임 벡터 부호화 C(x+k, y+l)는 목표 VOP내 매크로블럭의 화소로 두고, R(x+i+k, y+j+l)은 기준 VOP내 매크로블럭의 화소로 두자. 두 매크로블럭 사이의 차분을 측정하기 위한 절대 차분의 합(SAD)은 다음과 같이 정의될 수 있음: N ᅳ 매크로블럭의 크기. C(p, q)가 목표 VOP내의 화소일 때 Map(p, q) = 1이고, 그렇지 않으면 Map(p, q) = 0 임. 최소 SAD를 주는 벡터(i, j)가 움직임 벡터 MV(u, v)로 채택됨: p ᅳ u와 v를 위해 최대로 허용할 수 있는 크기.

질감 부호화 I. DCT 기반 질감 부호화 MPEG-4에서 질감 부호화는 다음과 같은 기반으로 할 수 있음: 형태 적응적인 DCT(SA-DCT) I-VOP에서 VOP의 각 매크로블럭에서 화소의 회색도 값은 JPEG에서 수행되는 것과 유사하게 DCT와 뒷따르는 VLC를 이용하여 바로 부호화됨. P-VOP 또는 B-VOP에서, 움직임 보상 기반 부호화를 이용. ᅳ 그것은 DCT와 VLC에 보내지는 예측 오차임. I. DCT 기반 질감 부호화 2009-2학기 멀티미디어시스템

내부 매크로블럭들을 위한 부호화는: 경계 매크로블럭들을 위한 부호화는: 각 매크로블럭은 휘도 VOP에서 16×16이고, 색도 VOP에서 8×8임. 각 매크로블럭에서 6개의 8×8블럭들로부터 예측 오차는 전형적인 움직임 예측 단계 뒤에 얻어짐. 경계 매크로블럭들을 위한 부호화는: VOP밖의 목표 VOP에서 경계 매크로블럭의 부분을 위해, 이상적으로 예측 오차는 VOP안에서 영에 가깝기 때문에 영이 DCT에게 보내진 블럭에 채워짐. 움직임 보상 후에, 목표 VOP내의 질감 예측 오차를 얻음. 2009-2학기 멀티미디어시스템

II. 경계 매크로블럭들을 위한 형상 적응적인 DCT(SA-DCT) 기반 부호화 그것의 효율성 때문에, SA-DCT는 MPEG-4 버전 2에서 경계 매크로블럭 부호화를 위해 채택. 그것은 1차원 DCT-N 변환과 그것의 역변환 IDCT-N을 사용: 1차원 DCT-N: 1차원 IDCT-N:

SA-DCT는 2차원 DCT이고 그것은 1차원 DCT-N의 두 번 반복을 통해서 분리 가능한 2차원 변환으로 계산됨. 그림 12.8은 형상 적응적인 DCT(SA-DCT)를 이용하여 경계 매크로블럭을 위한 질감 부호화 과정을 설명함. 2009-2학기 멀티미디어시스템

그림 12.8: 형상 적응적인 DCT(SA-DCT)를 이용한 경계 매크로블럭들을 위한 질감 부호화 2009-2학기 멀티미디어시스템

형상 부호화 MPEG-4는 이진(binary)과 회색도(gray scale)의 두 가지 형태의 형상 정보를 지원. 이진 형상 정보는 VOP의 직사각형 경계 상자와 같은 크기의 이진 맵(또한 이진 알파맵으로 알려진) 형태를 가질 수 있음. 비트맵에서 1(불투명) 또는 0(투명)의 값은 화소가 VOP의 안인지 밖인지를 나타냄. 회색도 형상 정보는 실제적으로 0(완전하게 투명)부터 255(불투명)까지 범위의 회색 값을 갖는 형상 투명도로 참조. 2009-2학기 멀티미디어시스템

I. 이진 형상 부호화 BABs(이진 알파 블록: Binary Alpha Blocks): 이진 알파 맵을 더 효율적으로 부호화하기 위해, 그 맵은 16×16 블럭으로 나누어짐. 경계 BABs는 윤곽선을 포함하고 따라서 VOP를 위한 형상 정보를 포함. ᅳ 이진 형상 부호화의 대상이 됨. 두 가지 비트맵 기반 알고리즘: (a) 수정된 수정된 READ(MMR: Modified Modified READ) (b) 내용-기반 산술 부호화(CAE: Context-based Arithmetic Encoding) 2009-2학기 멀티미디어시스템

수정된 수정된 READ(MMR) MMR은 기본적으로 상대적 요소 주소 명명(READ: Relative Element Address Designate) 알고리즘의 단순화 부류. READ 알고리즘은 이전과 현재 라인에서 다섯 화소 위치를 확인함으로써 시작: a0: 부호화기와 복호화기 모두에게 알려진 마지막 화소 값; a1: a0 오른쪽으로의 전이 화소; a2: a2 오른쪽으로의 두 번째 전이 화소; b1: 이전 부호화된 라인에서 색이 a0에 반대인 첫 번째 전이 화소; b2: 이전 부호화된 라인상에서 b1 오른쪽으로의 첫 번째 전이 화소. 2009-2학기 멀티미디어시스템

수정된 수정된 READ(MMR)(계속) READ 알고리즘은 이 화소들의 상대적인 위치를 검사함으로써 동작: 언제든지, 부호화기와 복호화기 모두 a0, b1, b2의 위치를 아는 반면에 a1과 a2의 위치는 부호화기만 알 수 있음. 세 가지 부호화 모드가 이용: 1. 만약 이전 라인과 현재 라인의 런-길이가 유사하다면, a1과 b1 사이의 거리는 a0와 a1 사이의 거리보다 훨씬 더 작아야 함. 수직모드는 a1 - b1으로 현재 런-길이를 부호화함. 2. 만약 이전 라인이 유사한 런-길이를 갖지 않으면, 현재 런-길이는 1차원 런-길이 부호화를 이용해서 부호화함. ᅳ 수평모드. 3. 만약 a0 ≤ b1 < b2 < a1 이면, 경로 모드에 있다는 것을 가리키는 부호어(codeword)를 단순히 전송하고 b2 아래의 위치로 a0를 나아가게 하고 부호화 과정을 계속함. 2009-2학기 멀티미디어시스템

실제 구현을 위해 READ 알고리즘을 일부 간략화 할 수 있음. 예를 들어, 만약 ∥a1 - b1∥ < 3 이면, 그것은 수직 모드를 적용할 수 있다는 것을 나타내기에 충분함. 또한 오류 전파를 막기 위해, k개의 라인마다 일반적인 런-길이 부호화를 이용해서 부호화된 라인이 적어도 하나는 포함하도록 k-인자가 정의됨. 이러한 수정은 G3표준에서 사용된 수정된 READ (Modified READ) 알고리즘을 구성. MMR(수정된 수정된 READ)알고리즘은 단순히 k-인자에 의해 강요된 제한을 제거함. 2009-2학기 멀티미디어시스템

그림 12.9: 경계 BAB(이진 알파 블럭)내 화소를 위한 CAE의 내용. (a) 인트라-CAE, (b) 인터-CAE. 2009-2학기 멀티미디어시스템

CAE(계속) 어떤 특정한 내용(예, 모두 0이거나 1)이 다른 것보다 더 빈번히 나타남. 일부의 이전 통계치를 가지고 이웃 화소의 수를 k라고 할 때, 각각 2k개 내용의 일어날 확률을 나타내기 위해 확률표를 만들 수 있음. 각 화소는 그것의 내용을 위한 확률 값을 찾기 위하여 표를 참조할 수 있음. CAE는 단순히 각 BAB에서 16×16 화소를 순차적으로 주사하고 궁극적으로 그 BAB를 위한 단일의 부동소수점을 가지는 수를 유도하기 위해 산술 부호화를 적용. 인터-CAE 모드는 인트라-CAE의 자연스러운 확장: 그것은 목표와 참조 알파맵 모두를 포함. 2009-2학기 멀티미디어시스템

II. 회색도 형상 부호화 여기서 회색도(gray-scale)는 질감이 아닌 형상의 투명도(transparency)를 기술하기 위해 사용. MPEG-4에서 회색도 형상 부호화(gray-scale shape coding)는 위에서 기술한 질감 부호화와 같은 기술을 이용. 알파 맵과 블럭 기반 움직임 보상을 이용하고, DCT에 의한 예측 오차를 부호화함. 모든 화소가 VOP내에 있지 않기 때문에 경계 매크로블럭은 이전처럼 채워 넣기가 필요. 2009-2학기 멀티미디어시스템

정적 질감 부호화 MPEG-4는 정적 객체의 질감을 위한 웨이블릿 부호화를 이용. 가장 낮은 주파수를 갖는 서브밴드는 DPCM을 이용하여 부호화됨. 각 계수의 예측은 세 이웃을 기반으로 함. 다음 서브밴드의 부호화는 다중스케일 제로 트리 웨이블릿 부호화 방법을 기반으로 함. 다중 스케일 제로 트리는 모든 계수의 위치를 더 잘 추적하기 위하여 가장 낮은 주파수 서브밴드의 각 계수를 위한 부모-자식 관계 트리를 가짐. 또한 양자화의 정도는 데이트율에 영향을 미침. 2009-2학기 멀티미디어시스템

스프라이트 부호화 스프라이트(sprite)는 더 큰 그래픽 영상 또는 영상의 집합 내에서 자유롭게 주위를 움직일 수 있는 그래픽 영상. 배경으로부터 전경 객체를 구분하기 위해, 우리는 스프라이트 파노라마(sprite panorama)의 개념을 소개: 한 비디오 프레임의 순서에 걸쳐있는 정적 배경을 기술하는 정지 영상. 큰 스프라이트 파노라마 영상은 비디오 순서의 시작에서 오직 한 번만 부호화되어 복호화기로 보내질 수 있음. 복호화기가 개별적으로 부호화된 전경 객체와 지금까지의 카메라 움직임을 기술하는 매개변수를 받을 때, 그것은 효율적인 방법으로 장면을 재구성 할 수 있음. 그림 12.10은 비디오 프레임의 순서로부터 꿰매진 파노라마 영상인 스프라이트를 보여줌. 2009-2학기 멀티미디어시스템

* Simon Fraser University Pipe Band에서 제공한 피리 부는 사람 영상 그림 12.10: 스프라이트 부호화. (a) 배경의 스프라이트 파노라마 영상, (b) 블루스크린 영상내의 전경 객체(피리 부는 사람) (c) 합성된 비디오 장면 * Simon Fraser University Pipe Band에서 제공한 피리 부는 사람 영상 2009-2학기 멀티미디어시스템

전역 움직임 보상(GMC) “전역(Global)” - 카메라 움직임으로 인한 전체적인 변화(팬(pan), 틸트(tilt), 회전(rotation), 줌(zoom)) GMC(Global Motion Compensation)가 없는 이것은 아주 많은 수의 중요한 움직임 벡터를 가져오는 원인이 됨. GMC 알고리즘 내의 네 가지 주요 구성요소: 전역 움직임 예측 와핑(warping)과 블렌딩(blending) 움직임 궤도 부호화 LMC(지역 움직임 보상: Local Motion Compensation) 또는 GMC의 선택 2009-2학기 멀티미디어시스템

전역 움직임은 스프라이트 S와 전역 움직임 보상된 영상 I' 사이의 차분 제곱의 합을 최소화 함으로써 계산됨: 전체 영상에 걸친 움직임은 다음과 같이 정의한 여덟 개의 매개변수를 사용한 원근움직임 모델에 의해 매개 변수화 됨:

12.3 MPEG-4의 합성 객체 부호화 2차원 매쉬 객체 부호화 2차원 매쉬(2D mesh): 다각형 조각을 이용한 2차원 평면 영역의 모자이크(또는 분할): 다각형의 정점들은 매쉬의 노드(node)라고 부름. 가장 대표적인 매쉬는 모든 다각형이 삼각형인 삼각형 매쉬(triangular mesh). MPEG-4 표면은 두 가지 형태의 2차원 매쉬를 이용 : 균일 매쉬(unform mesh)와 Delaunay 매쉬 2차원 매쉬 객체 부호화는 간결. 매쉬의 모든 좌표 값은 반화소 정밀도로 부호화됨. 각각의 2차원 매쉬는 매쉬 객체 평면(MOP: mesh object plane)으로 여겨짐. 2009-2학기 멀티미디어시스템

그림 12.11: 2차원 매쉬 객체 평면(MOP) 부호화 과정 2009-2학기 멀티미디어시스템

I. 2차원 매쉬 기하학 부호화 MPEG-4는 다른 3각 측량 구조를 가지는 네 가지 형태의 균일 매쉬를 허용. 그림 12.12: 균일한 매쉬의 4가지 유형 2009-2학기 멀티미디어시스템

비디오 객체를 위한 Delaunay 매쉬는 다음의 단계에서 얻을 수 있음: 정의: 만약 D가 Delaunay 3각 측량이라면, 그것 중의 어떤 삼각형 tn = (Pi, Pj, Pk)∈D는 tn의 외접원이 그것의 내부에 어떤 다른 노드 점 Pl을 포함하지 않는다는 속성을 만족함. 비디오 객체를 위한 Delaunay 매쉬는 다음의 단계에서 얻을 수 있음: 1. 매쉬의 경계 노드를 선택함: 다각형은 객체의 경계를 근사화하는데 이용. 2. 내부 노드를 선택함: 객체 경계 내에 있는 특징점(예, 가장자리 점 또는 모서리)은 매쉬를 위한 내부 노드로 선택되어짐. 3. Delaunay 3각 측량을 실행함: 제한된 Delaunay 3각 측량은 다각형 경계를 제한으로 사용하여 경계와 내부 노드에서 실행됨. 2009-2학기 멀티미디어시스템

제한된 Delaunay 3각 측량 내부 가장자리는 새로운 삼각형을 형성하기 위해 먼저 더해짐. 가장자리 를 공유하는 두 삼각형 (Pi, Pj, Pk)와 (Pj, Pk, Pl)이 주어지고, 만약 그것의 내부에서 (Pi, Pj, Pk)가 Pl를 포함하거나 (Pj, Pk, Pl)이 Pi를 포함한다면, 는 국부적으로 Delaunay가 아니고 새로운 가장자리 에 의해 교체될 것임. 만약 Pl이 정확하게 (Pi, Pj, Pk)의 외접원에 있게 된다면(따라서 Pi 또한 정확하게 (Pj, Pk, Pl)의 외접원에 있게 된다면), Pi또는 Pl이 네 개의 노드 사이에 가장 큰 x 좌표를 가질 때만 는 국부적으로 Delaunay로 간주됨.

그림 12. 13: Delaunay 매쉬: (a) 경계 노드(P0 ~ P7)과 내부 노드(P8 ~ P13) 그림 12.13: Delaunay 매쉬: (a) 경계 노드(P0 ~ P7)과 내부 노드(P8 ~ P13). (b) 제한된 Delaunay 3각 측량에 의해 얻어진 삼각형 매쉬. 처음 위치 (x0, y0)를 제외하고, 다음의 모든 좌표는 차분이 부호화됨. ᅳ 즉, n ≥ 1일 때, 그 뒤에 dxn, dyn는 가변 길이 부호화됨.

II. 2차원 매쉬 움직임 부호화 새로운 매쉬 구조는 오직 인트라-프레임에서만 생성될 수 있고, 그것의 3각 위상 기하학은 다음의 인터-프레임에서 변경되지 않을 것임. ᅳ 2차원 매쉬 움직임 예측에서 1대 1사상을 시행함. 어떤 MOP 삼각형 (Pi, Pj, Pk)을 위해, 만약 Pi와 Pj를 위한 움직임 벡터가 MVi와 MVj로 알려지면, 예측 Predk은 반화소 정밀도로 반올림되어 Pk의 움직임 벡터를 위해 생성될 것임: 예측 오차 ek는 다음과 같이 부호화됨:

그림 12.14: 2차원 매쉬 움직임 부호화를 위한 MOP 삼각형의 폭 우선 순서 2009-2학기 멀티미디어시스템

그림 12.15: 2차원 객체 애니메이션을 위한 매쉬 기반 질감 매핑 2009-2학기 멀티미디어시스템

12.3.2 3차원 모델 기반 부호화 비디오에서 사람 얼굴과 몸의 빈번한 출현 때문에, MPEG-4는 얼굴 객체(face objects)와 몸 객체(body objects)를 위한 특별한 3차원 모델을 정의함. 이러한 새로운 비디오 객체를 위한 잠재적인 몇 가지의 응용분야는 원격 회의, 인간-컴퓨터 인터페이스, 게임, 전자상거래를 포함. 얼굴 또는 몸 객체의 표면이 명암(shaded)을 나타내거나 질감-사상(texture-mapped)될 수 있도록 MPEG-4는 와이어프레임(wireframes)의 범위를 뛰어 넘음. 2009-2학기 멀티미디어시스템

I. 얼굴 객체 부호화와 애니메이션 MPEG-4는 VRML 컨소시엄에 의해 개발된 일반 기본 얼굴 모델을 채택. 얼굴 애니메이션 매개변수(FAPs: Face Animation Parameters)는 원하는 애니메이션(원본 “무표정” 얼굴로부터 유도)을 이루기 위해 기술될 수 있음. 게다가, 얼굴 정의 매개변수(FDPs: Face Definition Parameters)는 개개의 얼굴을 더 잘 묘사하기 위해 기술될 수 있음. 그림 12.16은 FDPs를 위한 특징 점을 보여줌. 애니메이션에 의해 영향을 받을 수 있는 특징 점(FAPs)은 꽉 찬 원으로 보여지고 영향을 받지 않는 다른 것들은 빈 원으로 보여짐. 2009-2학기 멀티미디어시스템

그림 12. 16: 얼굴 정의 매개변수를 위한 특징 포인트(FDPs) 그림 12.16: 얼굴 정의 매개변수를 위한 특징 포인트(FDPs). (치아(teeth)와 혀(tongue)를 위한 특징 포인트는 보이지 않음.) 2009-2학기 멀티미디어시스템

II. 몸 객체 부호화와 애니메이션 MPEG-4 버전 2는 얼굴 객체로의 자연스러운 확장인 몸 객체(body objects)를 도입. VRML 컨소시엄내의 휴머노이드 애니메이션(H-Anim)그룹과 작업하여, 기본 자세를 가지는 일반적인 가상 인간 몸을 채택. 기본자세는 정면을 향하는 발, 손바닥이 안으로 향하고 옆쪽에 팔을 두고 서 있는 자세. 296 몸 애니메이션 매개변수(BAPs: Body Animation Parmeters)가 있음. MPEG-4에 순응하는 어떤 일반적인 몸에 적용될 때, 그것들은 같은 애니메이션을 생성할 것임. 2009-2학기 멀티미디어시스템

BAPs의 부호화는 FAPs의 그것과 유사함: 양자화와 예측 부호화가 이용되고, 예측 오차는 산술 부호화에 의해 더욱 압축됨. 몇몇 몸의 움직임은 세부적인 다중 등급 내에서 기술할 수 있음. 특정한 몸을 위해, 몸 정의 매개변수(BDPs: Body Definition Parameters)는 몸 차원, 몸 표면 기하학, 그리고 선택적으로 질감을 위해 명시될 수 있음. BAPs의 부호화는 FAPs의 그것과 유사함: 양자화와 예측 부호화가 이용되고, 예측 오차는 산술 부호화에 의해 더욱 압축됨. 2009-2학기 멀티미디어시스템

12.4 MPEG-4 객체 유형, 프로파일 및 레벨 MPEG-4에서 프로파일(Profiles)과 레벨(Levels)의 표준화는 두 가지 주요 목적을 가짐: (a) 구현된 시스템 간의 상호 동작성을 보장 (b) 표준에 대한 순응 시험을 허용 MPEG-4는 비주얼 프로파일과 오디오 프로파일 뿐만 아니라 그것의 시스템 부분에서 그래픽 프로파일, 장면 묘사 프로파일, 객체 묘사 프로파일도 명시. 객체 유형(object type)은 비디오 객체를 생성하고 장면을 결합하는 방법을 만들기 위해 필요한 도구들을 정의하여 소개함. 2009-2학기 멀티미디어시스템

표 12.1: MPEG-4 자연적인 비주얼 객체 유형을 위한 도구들 2009-2학기 멀티미디어시스템

표 12.2: MPEG-4 자연적인 비주얼 객체 유형과 프로파일 예를 들면 “메인 프로파일”은 오직 “Simple”, “Core”, “Main”, “Scalable Still Texture”의 객체 유형을 지원함. 2009-2학기 멀티미디어시스템

표 12.3: Simple, Core, Main 비주얼 프로파일에서의 MPEG-4 레벨 2009-2학기 멀티미디어시스템

12.5 MPEG-4 Part 10/H.264 이전에 “H.26L”로 알려진, H.264 비디오 압축 표준은 ISO/IEC MPEG과 ITU-T VCEG의 Joint Video Team (JVT)에 의해 개발. 새로운 표준 기반의 소프트웨어를 이용한 예비 연구는 H.264가 MPEG-2 보다 30∼50% 더 나은 압축을 제공하고, H.263+와 MPEG-4의 개선된 Simple 프로파일보다 30% 더 나은 압축을 제공한다는 것을 제안. 이 연구의 성과는 실질적으로 두 개의 동일한 표준: ISO MPEG-4 Part10과 ITU-T H.264. H.264는 현재 많은 잠재적인 응용에서 고 선명도 TV (HDTV: High Definition TV) 비디오 내용을 전달하는 유력한 후보 중에 하나. 2009-2학기 멀티미디어시스템

핵심 특징 VLC 기반 엔트로피 부호화: 두 가지 엔트로피 방법은 가변 길이 엔트로피 복호화기에서 이용: 단일화된-VLC(UVLC)와 내용 적응적 VLC(CAVLC) 움직임 보상(P-예측): 4×4 블럭 크기(16×16, 16×8, 8×16, 8×8, 8×4, 4×8, 4×4)까지 트리 구조의 움직임 분할을 이용. 이것은 움직이는 객체의 더욱 정확한 움직임 보상을 허용. 게다가 움직임 벡터는 반화소 또는 4분의 1화소 정확도까지 될 수 있음. 인트라-예측 (I-예측): H.264는 H.263+와 같은 이전 비디오 표준보다 더 많은 공간 예측을 이용. 2009-2학기 멀티미디어시스템

H.264의 기준인 프로파일은 화상 회의와 같은 실시간 대화 응용을 위해 의도되었음. 간단한 정수-정밀도 4×4 DCT와 비선형 단계-크기를 갖는 양자화 방식을 사용. 루프내 디블럭킹 필터 기준선 프로파일 특징 H.264의 기준인 프로파일은 화상 회의와 같은 실시간 대화 응용을 위해 의도되었음. 그것은 위에서 논의한 H.264의 모든 핵심 부호화 도구들과 다음의 부가적인 오류복원 도구들을 포함하는데, IP와 무선 네트워크와 같은 오류가 발생할 경향이 있는 네트워크를 위해 허용함. 임의의 슬라이드 순서(ASO) 융통성있는 매크로블럭 순서(FMO) 잉여 슬라이스 2009-2학기 멀티미디어시스템

메인 프로파일은 모든 기준선 프로파일 특징(ASO, FMO, 잉여 슬라이스는 제외)에 다음을 추가하여 포함: 메인 프로파일 특징 방송과 저장 매체와 같은 비저지연 응용을 묘사. 메인 프로파일은 모든 기준선 프로파일 특징(ASO, FMO, 잉여 슬라이스는 제외)에 다음을 추가하여 포함: B 슬라이스 내용 적응적 이진 산술 부호화(CABAC) 가중된 예측 확장 프로파일 특징 확장 프로파일(또는 프로파일 X)은 새로운 비디오 스트리밍 응용을 위해 디자인. 이 프로파일은 비저지연 특징, 비트스트림 스위칭 특징, 더 나은 오차-복원 도구들을 허용. 2009-2학기 멀티미디어시스템

12.6 MPEG-7 MPEG-7의 주요 목표는 디지털 도서관과 같은 응용에서 오디오 비주얼 내용 기반 검색(또는 오디오 비주얼 객체 검색)의 필요성을 충족시키는 것. 그럼에도 불구하고, 그것은 또한 멀티미디어 데이터의 생성(내용 창작)과 이용(내용 소비)을 포함하는 어떤 멀티미디어 응용에 적용할 수 있음. MPEG-7은 2001년 9월에 멀티미디어 내용 묘사 인터페이스(Multimedia Content Description Interface)라는 공식 이름으로 국제 표준이 되었음. 2009-2학기 멀티미디어시스템

MPEG-7에 의해 지원되는 응용 MPEG-7은 다양한 멀티미디어 응용을 지원. 그것의 데이터는 정지 영상, 그래픽, 3차원 모델, 오디오, 음성, 비디오, 합성 정보(이러한 요소들을 결합하는 방법)를 포함. MPEG-7 데이터 요소는 텍스트 형식(textual format) 또는 이진 형식(binary format) 또는 두 가지 모두 표현할 수 있음. 그림 12.17은 MPEG-7표준으로부터 이들을 얻을 수 있는 몇몇 가능한 응용을 설명함. 2009-2학기 멀티미디어시스템

그림 12.17: MPEG-7을 이용하여 가능한 응용들 2009-2학기 멀티미디어시스템

MPEG-7과 멀티미디어 내용 기술 MPEG-7은 기술자(D), 기술 체계(DS), 기술 정의 언어(DDL)를 개발함. 다음은 몇 가지 중요한 용어들임: 특징 ᅳ 데이터의 특색 기술 ᅳ 구조와 내용의 개념적 정보, 저장과 내용의 사용 등등을 기술하는 구체적으로 설명된 D와 DS의 집합. 기술자(D) ᅳ 특징의 정의(신택스와 시맨틱스) 기술 체계(DS) ᅳ 구조 및 D 와 DS사이 관계의 명세서 기술 정의 언어(DDL) ᅳ DS와 D를 표현하고 결합하기 위한 구문적 규칙 MPEG-7의 범위는 기술을 위해 D, DS와 DDL을 표준화하는 것임. 기술을 만들고 소비하는 메커니즘과 처리 과정은 MPEG-7의 범위 밖임. 2009-2학기 멀티미디어시스템

기술자(D: Descriptor) 기술자는 성능, 효율, 크기의 비교를 기반으로 선택. 기본적인 비주얼 특징을 위한 낮은 레벨 비주얼 기술자는 다음을 포함: 색(Color) 색 공간 (a) RGB, (b) YCbCr, (c) HSV(색상, 채도, 명암), (d) HMMD (HueMaxMinDiff), (e) RGB로부터 3×3 행렬에 의해 유도될 수 있는 3차원 색 공간, (f) 단색 색 양자화 (a) 선형, (b) 비선형, (c) 참조표 우위 색 스케일러블 색 색 레이아웃 색 구조 프레임의 그룹/ 영상의 그룹(GoF/GoP) 색 2009-2학기 멀티미디어시스템

질감(Texture) 형상(Shape) 동질성의 질감 질감 브라우징 에지 히스토그램 영역 기반 형상 윤곽 기반 형상 3차원 형상 2009-2학기 멀티미디어시스템

움직임(Motion) 위치 측정(Localization) 기타(Others) 카메라 움직임(그림 12.18을 보라) 객체 움직임 궤도 파라메트릭 객체 움직임 움직임 활동 위치 측정(Localization) 영역 경계 설정자 시공간 경계 설정자 기타(Others) 얼굴 인식 2009-2학기 멀티미디어시스템

그림 12.18: 카메라 움직임: 팬, 틸트, 롤, 돌리, 트랙, 붐 2009-2학기 멀티미디어시스템

기술 체계(DS: Description Scheme) 기본적인 요소(Basic Elements) 데이터 타입과 수학적 구조 구성 설계 도구 내용 관리(Content Management) 미디어 기술 창작과 생산 기술 내용 사용 기술 내용 기술(Content Description) 구조적 기술 2009-2학기 멀티미디어시스템

항해와 접근(Navigation and Access) 예를 들면, 분할 DS는 클래스 객체로서 구현될 수 있음. 그것은 다섯 개의 하위 클래스를 가질 수 있음: 오디오 비주얼 분할 DS, 오디오 분할 DS, 정지 영역 DS, 움직이는 영역 DS, 비디오 분할 DS. 하위 클래스 DS들은 순환적인 그 자신의 하위 클래스를 가짐. 개념적 기술 항해와 접근(Navigation and Access) 요약 분할과 분해 내용의 변화 내용 구성(Content Organization) 수집물 모델 사용자 상호 작용(User Interaction) 사용자 선호 2009-2학기 멀티미디어시스템

그림 12.19: MPEG-7 비디오 분할 2009-2학기 멀티미디어시스템

그림 12.20: 비디오 요약 2009-2학기 멀티미디어시스템

기술 정의 언어(DDL) MPEG-7은 그것의 기술 정의 언어(DDL: Description Definition Language)로써 초기에 WWW 컨소시엄(W3C)에 의해 개발된 XML 스키마 언어를 채택함. XML 스키마 언어는 오디오비주얼 내용을 위해 명확하게 설계되지 않았기 때문에 몇 가지를 확장했음: 배열과 행렬 데이터 유형 오디오, 비디오, 오디오비주얼 발표를 포함하는 다중의 미디어 유형 MimeType, CountryCode, RegionCode, CurrencyCode, and CharacterSetCode를 위해 열거된 데이터 유형 D와 DS를 위한 지적 재산권 관리 및 보호(IPMP: Intellectual Property Management and Protection) 2009-2학기 멀티미디어시스템

12.7 MPEG-21 최신 표준의 개발인, MPEG-21: 멀티미디어 프레임워크는 2000년 6월에 시작되어 예정된 2003년에 국제 표준이 되었음. MPEG-21의 버전은 서로 다른 공동체에 의해 사용된 넓은 범위의 네트워크와 장치를 교차하여 멀티미디어 자원의 손쉽고 증대된 사용을 가능하게 하는 멀티미디어 프레임워크를 정의하기 위함. MPEG-21에서 7가지 중요한 요소: 디지털 항목 선언 ᅳ 디지털 항목을 선언하기 위한 일률적이고 신축성있는 추상적 개념과 상호 운용 가능한 스키마를 수립하기 위함. 디지털 항목 확인과 기술 ᅳ 원본, 유형 또는 입자 모양의 관계없이 디지털 항목의 표준화된 확인과 기술을 위한 프레임 워크를 수립하기 위함. 2009-2학기 멀티미디어시스템

내용 관리와 사용 ᅳ 내용의 관리와 사용(탐색, 캐싱, 파일 보관, 분배 등)을 돕는 인터페이스와 프로토콜을 제공하기 위함. 지적 재산권 관리와 보호(IPMP) ᅳ 내용이 신뢰성 있게 관리되고 보호되는 것을 가능하도록 함. 터미널과 네트워크 ᅳ 넓은 범위의 네트워크와 터미널을 교차해서 서비스의 질(QoS)을 갖는 내용에 상호 운용 가능하고 손쉬운 접근을 제공하기 위함. 내용 발표 ᅳ MPEG-21의 목표, 즉 “내용을 언제든지 어느 곳에서든지”를 추구하기 위한 적절한 방법으로 내용을 표현하기 위함. 이벤트 보고 ᅳ 성능과 대안을 이해하기 위한 이벤트(사용자 상호작용)를 보고하기 위한 계량법과 인터페이스를 수립하기 위함. 2009-2학기 멀티미디어시스템