12장 MPEG 비디오 부호화 Ⅱ - MPEG-4, 7과 그 이후 12.5 MPEG-4 Part10/H.264 12.6 MPEG-7 12.7 MPEG-21 멀티미디어시스템 2013-1학기
12.1 MPEG-4의 개요 MPEG-4: 더 새로운 표준. 압축 외에도, 사용자 상호 작용에 큰 관심을 가짐. MPEG-4는 새로운 객체지향 부호화(object-based coding)를 채택함으로써 이전 표준과는 다름: 고 압축률을 제공할 뿐만 아니라, 또한 디지털 비디오 합성, 조작, 인덱싱, 검색에 유리. 그림 12.1은 MPEG-4 비디오가 비주얼 객체에 대해 간단한 연산에 의하여 어떻게 합성되고 조작되는지를 설명. MPEG-4 비디오를 위한 비트율은 이제 5kbps에서 10Mbps까지 넓은 범위를 포함. 멀티미디어시스템 2013-1학기 2
그림 12.1: MPEG-4 비디오의 합성과 조작 VOP: Video Object Plane 멀티미디어시스템 2013-1학기
MPEG-4의 개요(계속) MPEG-4(그림 12.2(b))는 완전히 새로운 표준: (a) 원하는 오디오 비주얼 장면을 만들기 위해 미디어 객체를 합성. (b) 서비스의 질(QoS: Quality of Service)을 보장하면서 전송 하기 위해 미디어 데이터의 실체를 위한 비트스트림 을 다중화하고 동기화함. (c) 수신측에서 오디오비주얼 장면과 상호작용 ᅳ 오디 오 및 비디오 압축을 위해 진보된 부호화 모듈과 알 고리즘의 툴 박스를 제공. 멀티미디어시스템 2013-1학기 4
그림 12.2: MPEG 표준들의 상호작용 비교: (a) MPEG-1과 2의 기준 모델(점선으로 표시된 상호작용은 MPEG-2에 의해서만 제공); (b) MPEG-4 기준 모델 멀티미디어시스템 2013-1학기
그림 12.3: MPEG-4 비주얼 비트스트림에서 장면의 비디오 객체 지향적인 계층적 기술 MPEG-4 비주얼 비트스트림의 계층적 구조는 아주 비 디오 객체 지향적이므로, MPEG-1과 MPEG-2의 그것과 는 매우 다름. 그림 12.3: MPEG-4 비주얼 비트스트림에서 장면의 비디오 객체 지향적인 계층적 기술 멀티미디어시스템 2013-1학기
MPEG-4의 개요(계속) 1. 비디오 객체 시퀀스(VS) ᅳ 2차원 또는 3차원, 자연적 또는 합 성인 객체를 포함하는 완전한 MPEG-4 비주얼 장면을 전달. 2. 비디오 객체(VO) ᅳ 장면의 배경 또는 객체에 해당되는 임의 의 (직사각형이 아닌) 형태가 될 수 있는 장면내의 특정한 객 체. 3. 비디오 객체 계층(VOL) ᅳ (다중 계층의) 스케일러블 부호화 를 지원하는 방법에 용이. 한 비디오 객체(VO)는 스케일러블 부호화에서 여러 개의 비디오 객체 계층들 (VOLs)을 가질 수 있고, 스케일러블 부호화가 아닌 경우에는 단일의 비디오 객 체 계층(VOL)을 가짐. 4. 비디오 객체 평면의 그룹(GOV) ᅳ 비디오 객체 평면들이 함 께 그룹화 되어 있음.(단계는 선택적임) 5. 비디오 객체 평면(VOP) ᅳ 특정한 순간에서 비디오 객체의 스 냅사진. 멀티미디어시스템 2013-1학기 7
12.2 MPEG-4의 객체지향 비주얼 부호화 VOP 기반 부호화 대 프레임 기반 부호화 MPEG-1 과 MPEG-2는 VOP 개념을 지원하지 않음. 따라서, 그들의 부호화 방법은 프레임-기반(frame-based)으로 일컬어짐.(또한, 블럭-기반 부호화(blocks-based coding) 로 알려져 있음) 그림 12.4(c)는 블럭-기반 부호화를 위해 두 가능한 매치 가 작은 예측 오차를 야기하는 하나의 가능한 예를 실행. 그림 12.4(d)는 각각의 VOP가 임의의 형상이고, 이상적으 로 현실의 객체 움직임과 일치하는 유일한 움직임 벡터 를 얻는 것을 보여줌. 멀티미디어시스템 2013-1학기 8
그림 12.4: 블록 기반 부호화와 객체 지향 부호화의 비교 멀티미디어시스템 2013-1학기 9
VOP 기반 부호화 또한 MPEG-4 VOP 기반 부호화도 움직임 보상 기술을 이 용: 프레임내 부호화된 VOP는 I-VOP로 불림. 프레임간 부호화된 VOP들은 만약 순방향 예측만이 이 용되면 P-VOPs로 불리고, 만약 양방향 예측이 이용되 면 B-VOPs로 불림. VOP들에 대한 새롭게 나타난 어려운 점: 임의의 형상을 가진다는 것인데, VOP의 질감뿐만 아니라 형상 정보도 부호화되어야 함. 주목: 여기서 질감은 실질적으로 VOP내에서 최소의 회 색도(또는 색도)값인 비주얼 내용을 언급함. 멀티미디어시스템 2013-1학기 10
VOP 기반 움직임 보상(MC) MPEG-4에서 움직임 보상 기반 VOP 부호화는 역시 세 단 계를 포함: (a) 움직임 예측 (b) 움직임 보상 기반 예측 (c) 예측 오차의 부호화 현재(목표) VOP의 VOP내 화소만이 움직임 보상에서 매 칭되기 위해 고려됨. 움직임 보상을 쉽게 하기 위해, 각 VOP는 많은 매크로블 럭들(MBs)로 나눔. 매크로블럭들은 휘도 영상에서 16×16과 색도 영상에서 8×8이 기본값. 멀티미디어시스템 2013-1학기 11
MPEG-4는 각각의 VOP를 위한 직사각형의 경계 상자를 정 의.(자세한 것은 그림 12.5를 참조) 완전하게 VOP내에 있는 매크로블럭은 내부 매크로블럭 (Interior Macroblocks)으로 불림. VOP의 경계에 걸쳐있는 매크로블럭은 경계 매크로블럭 (Boundary Macroblocks)으로 불림. 목표 VOP에서 모든 화소가 매칭되는 것을 돕고 변환 부호화 (예, DCT)에서 직사각형 블럭의 강제적인 요구사항을 맞추기 위해 채워 넣기의 전처리 단계는 움직임 예측에 앞서 기준 VOP들을 적용함. 주목: 채워 넣기는 기준 VOP에서만 일어남. 움직임 보상의 첫 번째 두 단계: 채워넣기와 움직임 벡터 부 호화 멀티미디어시스템 2013-1학기 12
그림 12.5: VOP의 경계 상자와 경계 매크로블럭 멀티미디어시스템 2013-1학기 13
그림 12.6: MPEG-4에서 기준 VOP들을 위한 채워 넣기 순서 I. 채워 넣기 기준 VOP에서 모든 경계 매크로블럭들을 위해, 수평 반 복 채워 넣기가 먼저 수행되고 수직 반복 채워 넣기가 뒤따름. 그 뒤에, VOP의 밖에 있지만 하나 이상의 경계 매크로블 럭들에 이웃한 모든 외부 매크로블럭(Exterior Macroblocks)들에 대해 확장 채워 넣기가 적용. 그림 12.6: MPEG-4에서 기준 VOP들을 위한 채워 넣기 순서 멀티미디어시스템 2013-1학기 14
알고리즘 12.1 수평 반복 채워 넣기: 다음의 수직 반복 채워 넣기 알고리즘은 유사한 방법으로 실 행. 멀티미디어시스템 2013-1학기 15
예제 12.1: 반복 채워 넣기 그림 12.7: 기준 VOP의 경계 매크로블럭에서 반복 채워 넣기의 예: (a) VOP내의 원 화소, (b) 수평 반복 채워 넣기 후, (c) 뒤따르는 수직 반복 채워 넣기. 멀티미디어시스템 2013-1학기 16
II. 움직임 벡터 부호화 C(x+k, y+l)는 목표 VOP내 매크로블럭의 화소로 두고, R(x+i+k, y+j+l)은 기준 VOP내 매크로블럭의 화소로 두자. 두 매크로블럭 사이의 차분을 측정하기 위한 절대 차분의 합(SAD)은 다음과 같이 정의될 수 있음: N ᅳ 매크로블럭의 크기. C(p, q)가 목표 VOP내의 화소일 때 Map(p, q) = 1이고, 그렇지 않으면 Map(p, q) = 0 임. 최소 SAD를 주는 벡터(i, j)가 움직임 벡터 MV(u, v)로 채택됨: p ᅳ u와 v를 위해 최대로 허용할 수 있는 크기. 멀티미디어시스템 2013-1학기 17
질감 부호화 I. DCT 기반 질감 부호화 질감은 VOP 내 회색도(또는 색도) 변화와 또는 패턴을 지칭한다. MPEG-4에서 질감 부호화는 다음과 같은 기반으로 할 수 있음: DCT 혹은 형태 적응적인 DCT(SA-DCT) I-VOP에서 VOP의 각 매크로블럭에서 화소의 회색도 값 은 JPEG에서 수행되는 것과 유사하게 DCT와 뒷따르는 VLC를 이용하여 바로 부호화됨. P-VOP 또는 B-VOP에서, 움직임 보상 기반 부호화를 이용. ᅳ 그것은 DCT와 VLC에 보내지는 예측 오차임. I. DCT 기반 질감 부호화 멀티미디어시스템 2013-1학기 18
각 매크로블럭은 휘도 VOP에서 16×16이고, 색도 VOP에서 8×8임. 내부 매크로블럭들을 위한 부호화는: 각 매크로블럭은 휘도 VOP에서 16×16이고, 색도 VOP에서 8×8임. 각 매크로블럭에서 6개의 8×8블럭들로부터 예측 오차는 전형적인 움직임 예측 단계 뒤에 얻어짐. 경계 매크로블럭들을 위한 부호화는: VOP밖의 목표 VOP에서 경계 매크로블럭의 부분을 위해, 이상적으로 예측 오차는 VOP안에서 영에 가깝기 때문에 영이 DCT에게 보내진 블럭에 채워짐. 움직임 보상 후에, 목표 VOP내의 질감 예측 오차를 얻음. 멀티미디어시스템 2013-1학기 19
II. 경계 매크로블럭들을 위한 형상 적응적인 DCT(SA-DCT) 기반 부호화 그것의 효율성 때문에, SA-DCT는 MPEG-4 버전 2에서 경계 매크로블럭 부호화를 위해 채택. 그것은 1차원 DCT-N 변환과 그것의 역변환 IDCT-N을 사용: 1차원 DCT-N: 1차원 IDCT-N: 멀티미디어시스템 2013-1학기 20
SA-DCT는 2차원 DCT이고 그것은 1차원 DCT-N의 두 번 반복을 통해서 분리 가능한 2차원 변환으로 계산됨. 그림 12.8은 형상 적응적인 DCT(SA-DCT)를 이용하여 경 계 매크로블럭을 위한 질감 부호화 과정을 설명함. 멀티미디어시스템 2013-1학기 21
그림 12.8: 형상 적응적인 DCT(SA-DCT)를 이용한 경계 매크로블럭들을 위한 질감 부호화 멀티미디어시스템 2013-1학기 22
형상 부호화 VOP 형상 부호화 필요 MPEG-4는 이진(binary)과 회색도(gray scale)의 두 가지 형태의 형상 정보를 지원. 이진 형상 정보는 VOP의 직사각형 경계 상자와 같은 크 기의 이진 맵(또한 이진 알파맵으로 알려진) 형태를 가 질 수 있음. 비트맵에서 1(불투명) 또는 0(투명)의 값은 화소가 VOP 의 안인지 밖인지를 나타냄. 회색도 형상 정보는 실제적으로 0(완전하게 투명)부터 255(불투명)까지 범위의 회색 값을 갖는 형상 투명도로 참조. 멀티미디어시스템 2013-1학기 23
I. 이진 형상 부호화 BABs(이진 알파 블록: Binary Alpha Blocks): 이진 알파 맵을 더 효 율적으로 부호화하기 위해, 그 맵은 16×16 블럭으로 나누어 짐. 경계 BABs는 윤곽선을 포함하고 따라서 VOP를 위한 형상 정 보를 포함. ᅳ 이진 형상 부호화의 대상이 됨. 두 가지 비트맵 기반 알고리즘: (a) 수정된 수정된 READ(MMR: Modified Modified READ): 팩 스 그룹3 표준에서 채택 (b) 내용-기반 산술 부호화(CAE: Context-based Arithmetic Encoding): JBIG를 위해 개발되어 채택 멀티미디어시스템 2013-1학기 24
수정된 수정된 READ(MMR) MMR은 기본적으로 상대적 요소 주소 명명(READ: Relative Element Address Designate) 알고리즘의 단순화 부류. READ 알고리즘의 기본개념: 이전 부호화된 라인 내 화소 위 치와 연관된 현재 라인을 부호화하는 것 READ 알고리즘은 이전과 현재 라인에서 다섯 화소 위치를 확인함으로써 시작: a0: 부호화기와 복호화기 모두에게 알려진 마지막 화소 값; a1: a0 오른쪽으로의 전이 화소; a2: a2 오른쪽으로의 두 번째 전이 화소; b1: 이전 부호화된 라인에서 색이 a0에 반대인 첫 번째 전이 화소; b2: 이전 부호화된 라인상에서 b1 오른쪽으로의 첫 번째 전 이 화소. 멀티미디어시스템 2013-1학기 25
수정된 수정된 READ(MMR)(계속) READ 알고리즘은 이 화소들의 상대적인 위치를 검사함 으로써 동작: 언제든지, 부호화기와 복호화기 모두 a0, b1, b2의 위치 를 아는 반면에 a1과 a2의 위치는 부호화기만 알 수 있 음. 세 가지 부호화 모드가 이용: 1. 만약 이전 라인과 현재 라인의 런-길이가 유사하다면, a1과 b1 사이의 거리는 a0와 a1 사이의 거리보다 훨씬 더 작아야 함. 수직모드는 a1 - b1으로 현재 런-길이를 부호화함. 2. 만약 이전 라인이 유사한 런-길이를 갖지 않으면, 현재 런-길이는 1 차원 런-길이 부호화를 이용해서 부호화함. ᅳ 수평모드. 3. 만약 a0 ≤ b1 < b2 < a1 이면, 경로 모드에 있다는 것을 가리키는 부호어 (codeword)를 단순히 전송하고 b2 아래의 위치로 a0를 나아가게 하고 부호화 과정을 계속함. 멀티미디어시스템 2013-1학기 26
실제 구현을 위해 READ 알고리즘을 일부 간략화 할 수 있음. 예를 들어, 만약 ∥a1 - b1∥ < 3 이면, 그것은 수직 모드를 적용할 수 있다는 것을 나타내기에 충분함. 또한 오류 전파를 막기 위해, k개의 라인마다 일반적 인 런-길이 부호화를 이용해서 부호화된 라인이 적어 도 하나는 포함하도록 k-인자가 정의됨. 이러한 수정은 G3표준에서 사용된 수정된 READ (Modified READ) 알고리즘을 구성. MMR(수정된 수정된 READ)알고리즘은 단순히 k-인자에 의해 강요된 제한 을 제거함. 멀티미디어시스템 2013-1학기 27
그림 12.9: 경계 BAB(이진 알파 블럭)내 화소를 위한 CAE의 내용. (a) 인트라-CAE, (b) 인터-CAE. -10개의 이웃화소들이 내용을 형성 -그 화소들과 연관된 10개의 이진술자들은 210=1024까지의 가능한 내용을 제공 -목표와 참조 알파맵 모두 포함 -목표 알파맵의 네개 이웃한 화소와, 참조 알파맵의 다섯 개의 화소를 포함 -29=512개 확률중 하나가 할당 그림 12.9: 경계 BAB(이진 알파 블럭)내 화소를 위한 CAE의 내용. (a) 인트라-CAE, (b) 인터-CAE. 멀티미디어시스템 2013-1학기 28
CAE(계속) 어떤 특정한 내용(예, 모두 0이거나 1)이 다른 것보다 더 빈번히 나타남. 어떤 특정한 내용(예, 모두 0이거나 1)이 다른 것보다 더 빈번히 나타남. 일부의 이전 통계치를 가지고 이웃 화소의 수를 k라고 할 때, 각각 2k개 내용의 일어날 확률을 나타내기 위해 확률표를 만들 수 있음. 각 화소는 그것의 내용을 위한 확률 값을 찾기 위하여 표를 참조할 수 있음. CAE는 단순히 각 BAB에서 16×16 화소를 순차적으로 주사하고 궁극적으로 그 BAB를 위한 단일의 부동소수점을 가지는 수를 유도하기 위해 산술 부호화를 적용. 인터-CAE 모드는 인트라-CAE의 자연스러운 확장: 그것 은 목표와 참조 알파맵 모두를 포함. 멀티미디어시스템 2013-1학기 29
II. 회색도 형상 부호화 여기서 회색도(gray-scale)는 질감이 아닌 형상의 투명 도(transparency)를 기술하기 위해 사용. MPEG-4에서 회색도 형상 부호화(gray-scale shape coding)는 위에서 기술한 질감 부호화와 같은 기술을 이 용. 알파 맵과 블럭 기반 움직임 보상을 이용하고, DCT에 의한 예측 오차를 부호화함. 모든 화소가 VOP내에 있지 않기 때문에 경계 매크로 블럭은 이전처럼 채워 넣기가 필요. 알파맵이 하나 이상의 비트평면을 가질 때 다중 레벨 의 투명도가 도입됨. 멀티미디어시스템 2013-1학기 30
정적 질감 부호화 MPEG-4는 정적 객체의 질감을 위한 웨이블릿 부호화를 이용. 질감이 3차원 표면 위 매핑시에 특히 적용 웨이블릿 부호화는 영상을 다중 주파수의 서브밴드로 반복적 분해 가능 MPEG-4 정적 질감 부호화에서 서브밴드 부호화는 다음과 같은 방법으 로 실행됨: 가장 낮은 주파수를 갖는 서브밴드는 DPCM을 이용하여 부호화됨. 각 계수의 예측은 세 이웃을 기반으로 함. 다음 서브밴드의 부호화는 다중스케일 제로 트리 웨이블릿 부호화 방법을 기반으로 함. 다중 스케일 제로 트리는 모든 계수의 위치를 더 잘 추적하기 위하여 가 장 낮은 주파수 서브밴드의 각 계수를 위한 부모-자식 관계 트리를 가짐. 또한 양자화의 정도는 데이트율에 영향을 미침. 멀티미디어시스템 2013-1학기 31
스프라이트 부호화 스프라이트(sprite)는 더 큰 그래픽 영상 또는 영상의 집합 내에 서 자유롭게 주위를 움직일 수 있는 그래픽 영상. 배경으로부터 전경 객체를 구분하기 위해, 우리는 스프라이트 파노라마(sprite panorama)의 개념을 소개: 한 비디오 프레임의 순서에 걸쳐있는 정적 배경을 기술하는 정지 영상. 영상꿰매기(stitching) 과 와핑(warping) 기술 이용 큰 스프라이트 파노라마 영상은 비디오 순서의 시작에서 오직 한 번만 부호화되어 복호화기로 보내질 수 있음. 복호화기가 개별적으로 부호화된 전경 객체와 지금까지의 카 메라 움직임을 기술하는 매개변수를 받을 때, 그것은 효율적 인 방법으로 장면을 재구성 할 수 있음. 그림 12.10은 비디오 프레임의 순서로부터 꿰매진 파노라마 영 상인 스프라이트를 보여줌. 멀티미디어시스템 2013-1학기 32
* Simon Fraser University Pipe Band에서 제공한 피리 부는 사람 영상 그림 12.10: 스프라이트 부호화. (a) 배경의 스프라이트 파노라마 영상, (b) 블루스크린 영상내의 전경 객체(피리 부는 사람) (c) 합성된 비디오 장면 멀티미디어시스템 * Simon Fraser University Pipe Band에서 제공한 피리 부는 사람 영상 2013-1학기 33
전역 움직임 보상(GMC) 팬, 틸트, 회전, 줌 등 보통의 카메라 움직임은 연속적인 비디오 프레임 사 이의 빠른 내용 변화를 일으킴 전형적인 블록 기반 움직임 보상은 아주 많은 수의 중요한 움직임 벡터 를 가져와서 움직임 이동 모델로 모두 기술하기 어렵다. GMC (Global Motion Compensation)으로 해결 “전역(Global)” - 카메라 움직임으로 인한 전체적인 변화(팬(pan), 틸트(tilt), 회 전(rotation), 줌(zoom)) GMC(Global Motion Compensation)가 없는 이것은 아주 많은 수의 중요한 움직임 벡터를 가져오는 원인이 됨. GMC 알고리즘 내의 네 가지 주요 구성요소: 전역 움직임 예측 와핑(warping)과 블렌딩(blending) 움직임 궤도 부호화 LMC(지역 움직임 보상: Local Motion Compensation) 또는 GMC의 선택 멀티미디어시스템 2013-1학기 34
전역움직임 예측은 스프라이트에 대하여 현재 영상의 움직임을 계산 전역움직임 예측은 스프라이트에 대하여 현재 영상의 움직임을 계산 전역 움직임은 스프라이트 S와 전역 움직임 보상된 영 상 I' 사이의 차분 제곱의 합을 최소화 함으로써 계산됨: 전체 영상에 걸친 움직임은 다음과 같이 정의한 여덟 개 의 매개변수를 사용한 원근움직임 모델(perspective motion model)에 의해 매개 변수화 됨: 35
지역 움직임 보상(LMC) 또는 GMC 의 선택 와핑과 블렌딩 움직임 파라미터가 계산되면 배경 영상은 스프라이트에 대 하여 정렬하기 위해 와핑된다. 와핑된 영상은 새로운 스프라이트 생성을 위해 현재 스프라 이트와 혼합된다. 움직임 궤적 부호화 직접적으로 움직임 파라미터를 전송하는 대신에 기준점의 변위(displacements)만을 부호화한다. 궤적부호화라고 함 지역 움직임 보상(LMC) 또는 GMC 의 선택 움직이는 배경에 GMC, 전경에는 LMC 적용 36
12.3 MPEG-4의 합성 객체 부호화 2차원 매쉬 객체 부호화 2차원 매쉬(2D mesh): 다각형 조각을 이용한 2차원 평면 영역의 모자 이크(또는 분할): 다각형의 정점들은 매쉬의 노드(node)라고 부름. 가장 대표적인 매쉬는 모든 다각형이 삼각형인 삼각형 매쉬 (triangular mesh). MPEG-4 표면은 두 가지 형태의 2차원 매쉬를 이용 : 균일 매쉬 (unform mesh)와 Delaunay 매쉬 합성 애니메이션 객체와 자연 비디오 객체 모델링에 이용 2차원 매쉬 객체 부호화는 간결. 매쉬의 모든 좌표 값은 반화소 정 밀도로 부호화됨. 각각의 2차원 매쉬는 매쉬 객체 평면(MOP: mesh object plane)으로 여겨 짐. 멀티미디어시스템 2013-1학기 37
그림 12.11: 2차원 매쉬 객체 평면(MOP) 부호화 과정 변위 데이터 움직임의 예측 오차 -부호화는 기하학 부호화와 움직임 부호화로 나누어짐. 그림 12.11: 2차원 매쉬 객체 평면(MOP) 부호화 과정 멀티미디어시스템 2013-1학기 38
I. 2차원 매쉬 기하학 부호화 MPEG-4는 다른 3각 측량 구조(triangulation structure)를 가지는 네 가지 형태의 균일 매쉬를 허용. 그림 12.12: 균일한 매쉬의 4가지 유형 각각의 균일 메쉬는 5개 파라미터로 기술: 처음 두 개는 행과 열의 노드 수, 다음 두 개는 각 직사각형의 수평/수직 크기, 마지막은 균일 메쉬의 타입을 나타냄 멀티미디어시스템 2013-1학기 39
Delaunay 메쉬는 임의 형상의 2차원 객체를 위한 더 나 은 객체 기반 메쉬 표현. 정의: 만약 D가 Delaunay 3각 측량이라면, 그것 중의 어떤 삼각형 tn = (Pi, Pj, Pk)∈D는 tn의 외접원이 그것의 내부에 어떤 다른 노드 점 Pl을 포함하지 않는다는 속성을 만족 함. 비디오 객체를 위한 Delaunay 매쉬는 다음의 단계에서 얻 을 수 있음: 1. 매쉬의 경계 노드를 선택함: 다각형은 객체의 경계를 근사화하는데 이용. 2. 내부 노드를 선택함: 객체 경계 내에 있는 특징점(예, 가장자리 점 또는 모서리)은 매쉬를 위한 내부 노드 로 선택되어짐. 3. Delaunay 3각 측량을 실행함: 제한된 Delaunay 3각 측 량은 다각형 경계를 제한으로 사용하여 경계와 내부 노드에서 실행됨. 멀티미디어시스템 2013-1학기 40
제한된 Delaunay 3각 측량 내부 가장자리는 새로운 삼각형을 형성하기 위해 먼저 더 해짐. 가장자리 를 공유하는 두 삼각형 (Pi, Pj, Pk)와 (Pj, Pk, Pl)이 주어지고, 만약 그것의 내부에서 (Pi, Pj, Pk)가 Pl를 포함하 거나 (Pj, Pk, Pl)이 Pi를 포함한다면, 는 국부적으로 Delaunay가 아니고 새로운 가장자리 에 의해 교체될 것임. 만약 Pl이 정확하게 (Pi, Pj, Pk)의 외접원에 있게 된다면(따 라서 Pi 또한 정확하게 (Pj, Pk, Pl)의 외접원에 있게 된다면), Pi또는 Pl이 네 개의 노드 사이에 가장 큰 x 좌표를 가질 때 만 는 국부적으로 Delaunay로 간주됨. 41
처음 위치 (x0, y0)를 제외하고, 다음의 모든 좌표는 차분 이 부호화됨. ᅳ 즉, n ≥ 1일 때, 그림 12.13: Delaunay 매쉬: (a) 경계 노드(P0 ~ P7)과 내부 노드(P8 ~ P13). (b) 제한된 Delaunay 3각 측량에 의해 얻어진 삼각형 매쉬. 처음 위치 (x0, y0)를 제외하고, 다음의 모든 좌표는 차분 이 부호화됨. ᅳ 즉, n ≥ 1일 때, 그 뒤에 dxn, dyn는 가변 길이 부호화됨. 42
II. 2차원 매쉬 움직임 부호화 새로운 매쉬 구조는 오직 인트라-프레임에서만 생성 될 수 있고, 그것의 3각 위상 기하학은 다음의 인터-프 레임에서 변경되지 않을 것임. ᅳ 2차원 매쉬 움직임 예측에서 1대 1사상을 시행함. 어떤 MOP 삼각형 (Pi, Pj, Pk)을 위해, 만약 Pi와 Pj를 위한 움직임 벡터가 MVi와 MVj로 알려지면, 예측 Predk은 반 화소 정밀도로 반올림되어 Pk의 움직임 벡터를 위해 생성될 것임: 예측 오차 ek는 다음과 같이 부호화됨: 43
그림 12.14: 2차원 매쉬 움직임 부호화를 위한 MOP 삼각형의 폭 우선 순서 움직임 벡터의 예측은 초기 삼각형 to에서 시작 -MOP내의 다른 노드를 위한 움직임 벡터는 차분이 부호화됨 -폭-우선순위로 진행. 그림 12.14: 2차원 매쉬 움직임 부호화를 위한 MOP 삼각형의 폭 우선 순서 멀티미디어시스템 2013-1학기 44
그림 12.15: 2차원 객체 애니메이션을 위한 매쉬 기반 질감 매핑 멀티미디어시스템 2013-1학기 45
12.3.2 3차원 모델 기반 부호화 비디오에서 사람 얼굴과 몸의 빈번한 출현 때문에, MPEG-4는 얼굴 객체(face objects)와 몸 객체(body objects)를 위한 특별한 3차원 모델을 정의함. 이러한 새로운 비디오 객체를 위한 잠재적인 몇 가지의 응용분야는 원격 회의, 인간-컴퓨터 인터페이스, 게임, 전자상거래를 포함. 얼굴 또는 몸 객체의 표면이 명암(shaded)을 나타내거나 질감-사상(texture-mapped)될 수 있도록 MPEG-4는 와이어 프레임(wireframes)의 범위를 뛰어 넘음. 멀티미디어시스템 2013-1학기 46
I. 얼굴 객체 부호화와 애니메이션 MPEG-4는 VRML 컨소시엄에 의해 개발된 일반 기본 얼 굴 모델을 채택. 얼굴 애니메이션 매개변수(FAPs: Face Animation Parameters)는 원하는 애니메이션(원본 “무표정” 얼굴로 부터 유도)을 이루기 위해 기술될 수 있음. 게다가, 얼굴 정의 매개변수(FDPs: Face Definition Parameters)는 개개의 얼굴을 더 잘 묘사하기 위해 기술 될 수 있음. 그림 12.16은 FDPs를 위한 특징 점을 보여줌. 애니메이션 에 의해 영향을 받을 수 있는 특징 점(FAPs)은 꽉 찬 원으 로 보여지고 영향을 받지 않는 다른 것들은 빈 원으로 보여짐. 멀티미디어시스템 2013-1학기 47
그림 12. 16: 얼굴 정의 매개변수를 위한 특징 포인트(FDPs) 그림 12.16: 얼굴 정의 매개변수를 위한 특징 포인트(FDPs). (치아(teeth)와 혀(tongue)를 위한 특징 포인트는 보이지 않음.) 멀티미디어시스템 2013-1학기 48
II. 몸 객체 부호화와 애니메이션 MPEG-4 버전 2는 얼굴 객체로의 자연스러운 확장인 몸 객체(body objects)를 도입. VRML 컨소시엄내의 휴머노이드 애니메이션(H-Anim)그 룹과 작업하여, 기본 자세를 가지는 일반적인 가상 인간 몸을 채택. 기본자세는 정면을 향하는 발, 손바닥이 안으로 향하 고 옆쪽에 팔을 두고 서 있는 자세. 296 몸 애니메이션 매개변수(BAPs: Body Animation Parmeters)가 있음. MPEG-4에 순응하는 어떤 일반적 인 몸에 적용될 때, 그것들은 같은 애니메이션을 생성 할 것임. 멀티미디어시스템 2013-1학기 49
몇몇 몸의 움직임은 세부적인 다중 등급 내에서 기술 할 수 있음. 상당히 많은 BAPs는 몸의 다른 부분을 연결하는 관절 부분을 기술: 척추, 어깨, 쇄골, 팔꿈치, 손목, 손가락, 엉덩이, 무릎, 발목, 발가락 ᅳ 각각의 손에만 25개 정 도의 자유도이고, 몸에는 186개 정도의 자유도를 가짐. 몇몇 몸의 움직임은 세부적인 다중 등급 내에서 기술 할 수 있음. 특정한 몸을 위해, 몸 정의 매개변수(BDPs: Body Definition Parameters)는 몸 차원, 몸 표면 기하학, 그리 고 선택적으로 질감을 위해 명시될 수 있음. BAPs의 부호화는 FAPs의 그것과 유사함: 양자화와 예측 부호화가 이용되고, 예측 오차는 산술 부호화에 의해 더 욱 압축됨. 멀티미디어시스템 2013-1학기 50
12.4 MPEG-4 객체 유형, 프로파일 및 레벨 MPEG-4에서 프로파일(Profiles)과 레벨(Levels)의 표준화는 두 가지 주요 목적을 가짐: (a) 구현된 시스템 간의 상호 동작성을 보장 (b) 표준에 대한 순응 시험을 허용 MPEG-4는 비주얼 프로파일과 오디오 프로파일 뿐만 아 니라 그것의 시스템 부분에서 그래픽 프로파일, 장면 묘 사 프로파일, 객체 묘사 프로파일도 명시. 객체 유형(object type)은 비디오 객체를 생성하고 장면 을 결합하는 방법을 만들기 위해 필요한 도구들을 정의 하여 소개함. 멀티미디어시스템 2013-1학기 51
표 12.1: MPEG-4 자연적인 비주얼 객체 유형을 위한 도구들 멀티미디어시스템 2013-1학기 52
표 12.2: MPEG-4 자연적인 비주얼 객체 유형과 프로파일 예를 들면 “메인 프로파일”은 오직 “Simple”, “Core”, “Main”, “Scalable Still Texture”의 객체 유형을 지원함. 멀티미디어시스템 2013-1학기 53
표 12.3: Simple, Core, Main 비주얼 프로파일에서의 MPEG-4 레벨 멀티미디어시스템 2013-1학기 54
12.5 MPEG-4 Part 10/H.264 이전에 “H.26L”로 알려진, H.264 비디오 압축 표준은 ISO/IEC MPEG과 ITU-T VCEG의 Joint Video Team (JVT)에 의 해 개발. 새로운 표준 기반의 소프트웨어를 이용한 예비 연구는 H.264가 MPEG-2 보다 30∼50% 더 나은 압축을 제공하고, H.263+와 MPEG-4의 개선된 Simple 프로파일보다 30% 더 나은 압축을 제공한다는 것을 제안. 이 연구의 성과는 실질적으로 두 개의 동일한 표준: ISO MPEG-4 Part10과 ITU-T H.264. H.264는 현재 많은 잠재적인 응용에서 고 선명도 TV (HDTV: High Definition TV) 비디오 내용을 전달하는 유력한 후보 중에 하나. 멀티미디어시스템 2013-1학기 55
두 가지 엔트로피 방법은 가변 길이 엔트로피 복호화기에 서 이용: 단일화된-VLC(UVLC)와 내용 적응적 VLC(CAVLC) 핵심 특징 VLC 기반 엔트로피 부호화: 두 가지 엔트로피 방법은 가변 길이 엔트로피 복호화기에 서 이용: 단일화된-VLC(UVLC)와 내용 적응적 VLC(CAVLC) 움직임 보상(P-예측): 4×4 블럭 크기(16×16, 16×8, 8×16, 8×8, 8×4, 4×8, 4×4)까지 트리 구조의 움직임 분할을 이용. 이것은 움직이는 객체의 더욱 정확한 움직임 보상을 허용. 게다가 움직임 벡터는 반 화소 또는 4분의 1화소 정확도까지 될 수 있음. 인트라-예측 (I-예측): H.264는 H.263+와 같은 이전 비디오 표준보다 더 많은 공간 예측을 이용. 멀티미디어시스템 2013-1학기 56
변환, 주사, 양자화: 간단한 정수-정밀도 4×4 DCT와 비선형 단계-크기를 갖는 양자화 방식을 사용. H.264에서 정확한 P-와 I-의 예측에 의해 오차 화소의 공간 상 관도는 낮기 때문에 4x4 DCT 로 충분 루프내 디블럭킹 필터: H.264는 정교한 신호 적응적인 디블록킹 필터를 명시 일련의 필터 세트는 4x4 블록 에지에 적용 표준의 주관적인 품질을 증가시킴 멀티미디어시스템 2013-1학기 57
H.264의 기준선 프로파일은 화상 회의와 같은 실시간 대 화 응용을 위해 의도되었음. 기준선 프로파일 특징 H.264의 기준선 프로파일은 화상 회의와 같은 실시간 대 화 응용을 위해 의도되었음. 그것은 위에서 논의한 H.264의 모든 핵심 부호화 도구들 과 다음의 부가적인 오류복원 도구들을 포함하는데, IP 와 무선 네트워크와 같은 오류가 발생할 경향이 있는 네 트워크를 위해 허용함. 임의의 슬라이드 순서(ASO): 단순 증가가 아님. 융통성있는 매크로블럭 순서(FMO): 매크로 블록은 래 스터 주사 순서가 아닌 임의의 순서로 복호화 잉여 슬라이스: 슬라이스의 잉여 복사분은 오차 복원 력 개선 멀티미디어시스템 2013-1학기 58
방송과 저장 매체와 같은 비저지연(non-low-delay) 응용을 묘사. 메인 프로파일 특징 방송과 저장 매체와 같은 비저지연(non-low-delay) 응용을 묘사. 메인 프로파일은 모든 기준선 프로파일 특징(ASO, FMO, 잉여 슬라이스는 제외)에 다음을 추가하여 포함: B 슬라이스: H.264 의 쌍예측 모드는 융통성 제공. 내용 적응적 이진 산술 부호화(CABAC): 다른 데이터타 입과 내용에 대해 다른 적응적 통계치 모델을 이용하 는 이진 산술 부호화 가중된 예측: 조명의 변화나 페이딩(fading)과 같은 다 른 전역 효과를 예측하기 위해 전역가중치를 각 슬라 이스에 명시 멀티미디어시스템 2013-1학기 59
확장 프로파일 특징 확장 프로파일(또는 프로파일 X)은 새로운 비디오 스트리밍 응 용을 위해 디자인. 이 프로파일은 비저지연 특징, 비트스트림 스 위칭 특징, 더 나은 오차-복원 도구들을 허용. 모든 기준선 프로파일 기능과 다음 특징 포함 B 슬라이스 가중된 예측 슬라이스 데이터 분할 SP와 SI 슬라이스 타입: 특별한 시간적 예측 모드가 포함된 슬 라이스 멀티미디어시스템 2013-1학기 60
12.6 MPEG-7 MPEG-7의 주요 목표는 디지털 도서관과 같은 응용에서 오디오 비주얼 내용 기반 검색(또는 오디오 비주얼 객체 검색)의 필요성을 충족시키는 것. 그럼에도 불구하고, 그것은 또한 멀티미디어 데이터의 생성(내용 창작)과 이용(내용 소비)을 포함하는 어떤 멀 티미디어 응용에 적용할 수 있음. MPEG-7은 2001년 9월에 멀티미디어 내용 묘사 인터페이 스(Multimedia Content Description Interface)라는 공식 이름으로 국제 표준이 되었음. 멀티미디어시스템 2013-1학기 61
MPEG-7에 의해 지원되는 응용 MPEG-7은 다양한 멀티미디어 응용을 지원. 그것의 데이 터는 정지 영상, 그래픽, 3차원 모델, 오디오, 음성, 비디 오, 합성 정보(이러한 요소들을 결합하는 방법)를 포함. MPEG-7 데이터 요소는 텍스트 형식(textual format) 또는 이 진 형식(binary format) 또는 두 가지 모두 표현할 수 있음. 그림 12.17은 MPEG-7표준으로부터 이들을 얻을 수 있는 몇몇 가능한 응용을 설명함. 멀티미디어시스템 2013-1학기 62
그림 12.17: MPEG-7을 이용하여 가능한 응용들 멀티미디어시스템 2013-1학기 63
MPEG-7과 멀티미디어 내용 기술 MPEG-7은 기술자(D), 기술 체계(DS), 기술 정의 언어(DDL)를 개발함. 다음은 몇 가지 중요한 용어들임: 특징 ᅳ 데이터의 특색 기술 ᅳ 구조와 내용의 개념적 정보, 저장과 내용의 사용 등등을 기술하는 구체적으로 설명된 D와 DS의 집합. 기술자(D) ᅳ 특징의 정의(신택스와 시맨틱스) 기술 체계(DS) ᅳ 구조 및 D 와 DS사이 관계의 명세서 기술 정의 언어(DDL) ᅳ DS와 D를 표현하고 결합하기 위한 구문적 규칙 MPEG-7의 범위는 기술을 위해 D, DS와 DDL을 표준화하는 것 임. 기술을 만들고 소비하는 메커니즘과 처리 과정은 MPEG-7 의 범위 밖임. 멀티미디어시스템 2013-1학기 64
기술자(D: Descriptor) MPEG-7 서술자는 색깔, 질감, 형상, 움직임과 같은 낮은 레벨 특징과 이벤 트, 추상적 개념과 같은 높은 레벨 특징을 모두 서술 기술자는 성능, 효율, 크기의 비교를 기반으로 선택. 기본적인 비주얼 특징 을 위한 낮은 레벨 비주얼 기술자는 다음을 포함: 색(Color) 색 공간 (a) RGB, (b) YCbCr, (c) HSV(색상, 채도, 명암), (d) HMMD (HueMaxMinDiff), (e) RGB로부터 3×3 행렬에 의해 유도될 수 있는 3차 원 색 공간, (f) 단색 색 양자화 (a) 선형, (b) 비선형, (c) 참조표 우위 색: 각 영역 혹은 영상에서 대표적인(dorminant) 색 스케일러블 색: HSV 색 공간의 색 히스토그램 색 레이아웃: 색 레이아웃 기반 검색을 위한 색의 공간 분포 색 구조: 색 구성 요소의 주파수 프레임의 그룹/ 영상의 그룹(GoF/GoP) 색 멀티미디어시스템 2013-1학기 65
질감(Texture) 형상(Shape) 동질성의 질감: 정량적으로 동질성의 질감 영역을 표현하기 위해 Gabor 필터 이용 질감 브라우징: 동질성의 질감 표현과 탐색을 위해 에지의 규칙성, 조 악함, 방향성을 서술 에지 히스토그램: 네 개의 방향성 (0º, 45º, 90º, 135º) 에지와 하나의 방 향성 없는 에지의 공간적 분포를 나타냄 형상(Shape) 영역 기반 형상: ART(Anglular Radial Transform) 계수 집합이 객체의 형상 을 서술하기 위해 이용된다. 윤곽 기반 형상: 스케일과 회전에 불변이고 유연한 움직임과 형상의 부분 겹침에 강건한 CSS(Curvature Scale Space) 표현이 이용된다. 3차원 형상: 3차원 메시와 형상 인덱스를 기술한다. 멀티미디어시스템 2013-1학기 66
움직임(Motion) 위치 측정(Localization) 기타(Others) 카메라 움직임(그림 12.18을 보라) 객체 움직임 궤도 파라메트릭 객체 움직임 움직임 활동 위치 측정(Localization) 영역 경계 설정자 시공간 경계 설정자 기타(Others) 얼굴 인식: 정규화된 얼굴 영상은 1차원 벡터로 표현. 그 외는 49개 기 본 벡터의 집합으로 표현 멀티미디어시스템 2013-1학기 67
그림 12.18: 카메라 움직임: 팬, 틸트, 롤, 돌리, 트랙, 붐 멀티미디어시스템 2013-1학기 68
기술 체계(DS: Description Scheme) 기본적인 요소(Basic Elements) 데이터 타입과 수학적 구조: 벡터, 행렬, 히스토그램 등 구성: 미디어 파일과 국부화된 부분, 영역을 링크 설계 도구: 기본 요소, 최고 레벨 요소, 패키지 도구 내용 관리(Content Management) 미디어 기술: 하나의 DS, 미디어 정보, 미디어 검증, 부호화 방법 등 창작과 생산 기술: 창작, 분류 등 내용 사용 기술: 사용 권리, 사용 기록 등 내용 기술(Content Description) 구조적 기술: 세그먼트 DS는 내용의 구조적 측명 기술. 세 그먼트는 오디오비주얼 객체의 부분. 세그먼트 트리, 세그 먼트 그래프 이용. 멀티미디어시스템 2013-1학기 69
개념적 기술: 이벤트 DS, 객체 DS, 상태 DS, 개념 DS 와 같은 높은 레벨의 내용 서술 포함 예를 들면, 분할 DS는 클래스 객체로서 구현될 수 있음. 그것은 다섯 개 의 하위 클래스를 가질 수 있음: 오디오 비주얼 분할 DS, 오디오 분할 DS, 정지 영역 DS, 움직이는 영역 DS, 비디오 분할 DS. 하위 클래스 DS 들은 순환적인 그 자신의 하위 클래스를 가짐. 개념적 기술: 이벤트 DS, 객체 DS, 상태 DS, 개념 DS 와 같은 높은 레벨의 내용 서술 포함 항해와 접근(Navigation and Access) 요약: 키프레임만 보여줌. 비디오 요약 제공. 요약 DS, 계층적 요약 DS, 하이라이트레벨 DS, 순차요약 DS 지 원. 분할과 분해: 뷰(view) 분할과 분해 참조 내용의 변화: 변화 DS는 영상 해상도, 프레임율, 컬러 감축 등 원래 데이터의 변화 명시 멀티미디어시스템 2013-1학기 70
내용 구성(Content Organization) 수집물: 수집 구조 DS 는 오디오비주얼 내용을 그룹화. 모델: 모델 DS는 수집물의 속성과 특징에 관한 모델과 통계치를 추출하는 확률 모델 DS, 분석 모델 DS 등 포 함 사용자 상호 작용(User Interaction) 사용자 선호: DS들은 내용 타입, 탐색 모드 등에 의해 선호도가 변경되는지 서술 멀티미디어시스템 2013-1학기 71
그림 12.19: MPEG-7 비디오 분할 - 해양 구조 임무를 위한 비디오 세그먼트 - 세 움직임 영역으로 된 비디오 세그먼트 기술 세그먼트 그래프는 비디오 프레임 공간관계와 영역의 움직임의 합성을 보여줌 그림 12.19: MPEG-7 비디오 분할 멀티미디어시스템 2013-1학기 72
그림 12.20: 비디오 요약 -퍼레이드와 경주 비디오의 요약 -요약은 세 레벨 계층으로 구성 멀티미디어시스템 2013-1학기 73
기술 정의 언어(DDL) MPEG-7은 그것의 기술 정의 언어(DDL: Description Definition Language)로써 초기에 WWW 컨소시엄(W3C)에 의해 개발된 XML 스키마 언어를 채택함. XML 스키마 언어는 오디오비주 얼 내용을 위해 명확하게 설계되지 않았기 때문에 몇 가지를 확장했음: 배열과 행렬 데이터 유형 오디오, 비디오, 오디오비주얼 발표를 포함하는 다중의 미 디어 유형 MimeType, CountryCode, RegionCode, CurrencyCode, and CharacterSetCode를 위해 열거된 데이터 유형 D와 DS를 위한 지적 재산권 관리 및 보호(IPMP: Intellectual Property Management and Protection) 멀티미디어시스템 2013-1학기 74
12.7 MPEG-21 최신 표준의 개발인, MPEG-21: 멀티미디어 프레임워크 는 2000년 6월에 시작되어 예정된 2003년에 국제 표준이 되었음. MPEG-21의 버전은 서로 다른 공동체에 의해 사용된 넓 은 범위의 네트워크와 장치를 교차하여 멀티미디어 자 원의 손쉽고 증대된 사용을 가능하게 하는 멀티미디어 프레임워크를 정의하기 위함. MPEG-21에서 7가지 중요한 요소: 디지털 항목 선언 ᅳ 디지털 항목을 선언하기 위한 일 률적이고 신축성있는 추상적 개념과 상호 운용 가능 한 스키마를 수립하기 위함. 디지털 항목 확인과 기술 ᅳ 원본, 유형 또는 입자 모 양의 관계없이 디지털 항목의 표준화된 확인과 기술 을 위한 프레임 워크를 수립하기 위함. 멀티미디어시스템 2013-1학기 75
내용 관리와 사용 ᅳ 내용의 관리와 사용(탐색, 캐싱, 파일 보관, 분배 등)을 돕는 인터페이스와 프로토콜을 제공하기 위함. 내용 관리와 사용 ᅳ 내용의 관리와 사용(탐색, 캐싱, 파일 보관, 분배 등)을 돕는 인터페이스와 프로토콜을 제공하기 위함. 지적 재산권 관리와 보호(IPMP) ᅳ 내용이 신뢰성 있게 관 리되고 보호되는 것을 가능하도록 함. 터미널과 네트워크 ᅳ 넓은 범위의 네트워크와 터미널을 교차해서 서비스의 질(QoS)을 갖는 내용에 상호 운용 가능 하고 손쉬운 접근을 제공하기 위함. 내용 발표 ᅳ MPEG-21의 목표, 즉 “내용을 언제든지 어느 곳에서든지”를 추구하기 위한 적절한 방법으로 내용을 표 현하기 위함. 이벤트 보고 ᅳ 성능과 대안을 이해하기 위한 이벤트(사용 자 상호작용)를 보고하기 위한 계량법과 인터페이스를 수 립하기 위함. 멀티미디어시스템 2013-1학기 76