7장. 준지도 학습과 전이 학습
PREVIEW 지금까지는 다음 두 조건을 만족하는 상황의 학습 현대에는 레이블이 있는 샘플과 없는 샘플이 섞인 상황이 많음 비용 문제로 일부만 레이블링한 탓 레이블 없는 샘플을 버릴 것인가, 아니면 적절히 이용하는 알고리즘을 고안할 것인가? 준지도 학습의 주제 도메인이 다른 상황 예, 한국인 필체에 학습된 필기 숫자 인식기를 미국에 도입하면, 이나 와 같은 샘플에 서 오분류 가능성 서로 다른 도메인 많은 양을 새로 수집하여 처음부터 다시 학습할 것인가, 아니면 조금만 수집하고 이전 분 류기를 미세 조정할 것인가? 전이 학습의 주제
PREVIEW 준지도 학습과 전이 학습 현대 기계 학습에서 중요한 연구 주제 불완전한(레이블 정보가 없는) 데이터가 지닌 원천적 성질을 잘 이용해야 함 표현 학습은 이런 성질을 자동으로 알아내려는 시도이며, 준지도 학습과 전이 학습의 토대 가 됨
7.1 표현 학습의 중요성 7.1.1 표현 학습의 대두 7.1.2 매니폴드 관찰 7.1.3 프라이어를 이용한 변화 인자 풀어내기 표현의 중요성 692,688은 금액을 말할 때 편리, 2*2*2*2*3*14431(=692,688)은 공약수 구할 때 유리 음력은 달의 움직임을 알아내는 데 유리하지만 1년의 실제 길이와 차이 기계 학습에서도 표현이 매우 중요
7.1.1 표현 학습의 대두 기계 학습에서 좋은 표현의 중요성 예, [그림 1-7]과 [그림 3-9] 다시 보기
7.1.1 표현 학습의 대두 고전적인 기계 학습(수작업 특징)과 현대적인 기계 학습(표현 학습) 표현 학습을 위한 문헌 ICLR(International Conference on Learning Representations) 튜토리얼 논문 [Bengio2013] “Representation learning: a review and new perspective”, IEEE PAMI.
7.1.2 매니폴드 관찰 [그림 7-2]는 d차원 특징 공간의 개념도 광활한 특징 공간에서 실제로 데이터가 생성되는 부분은 매우 좁음 가상의 매니폴드 2개를 예시하는데, 𝑝 1 , 𝑝 2 , 𝑞 1 , 𝑞 2 축은 변화 인자에 해당(예, 획의 기울음, 두께, 끊김, 잡음 정도 등)
7.2 내부 표현의 이해 7.2.1 컨볼루션 필터의 가시화 7.2.2 특징 맵의 가시화 7.2.3 영상공간으로 역투영
7.2 내부 표현의 이해 표현의 가시화(현대 기계 학습의 중요한 추세) 블랙박스로 간주되던 신경망의 내부를 가시화하여, 성능에 대한 통찰력을 얻고 구조나 하 이퍼 매개변수를 최적화하는 데 활용 준지도 학습 또는 전이 학습을 설계하는 데 길잡이
7.2.1 컨볼루션 필터의 가시화 신경망 내부 표현을 가시화 하는 여러 가지 방법 필터 가시화 특징 맵 가시화 역투영 가시화
7.2.1 컨볼루션 필터의 가시화 필터의 가시화 예([그림 7-6]) 관찰 결과 첫 번째 컨볼루션 층에서는 에지나 블롭이 주로 나타남 영상의 종류에 무관하게 나타나는 일반적인 현상으로 밝혀짐
7.2.2 특징 맵의 가시화 가시화 도구 예([그림 7-7]) 층과 특징 맵을 마우스로 쉽게 선택할 수 있음 선택된 녹색 맵에서는 고양이 얼굴이 활성화되었음을 알 수 있음
7.2.2 특징 맵의 가시화 다른 영상을 입력해도 녹색 특징 맵은 얼굴 부위가 활성화됨을 확인할 수 있음
7.2.3 영상 공간으로 역투영 가시화의 두 가지 방식 최적화를 이용한 역투영 앞의 두 가지 가시화 기법은 전방 계산 과정에서 발생하는 필터 또는 특징 맵을 보여줌 역투영 기법은 특정 노드(뉴런)를 활성화하는 입력 공간의 신호를 알아내어 보여줌 최적화를 이용한 역투영 관찰 대상 노드를 i라 하고 𝑎 𝑖 𝐱 를 영상 𝐱가 입력되었을 때 i의 활성값이라 하면, 역투영 문제는 식 (7.1)로 표현됨 식 (7.1)의 최적화 문제를 식 (7.2)의 경사 상승법으로 풂( 𝐱 0 는 난수 영상) 실제로는 여러 가지 규제 기법을 적용하여 풂( 𝑟 Θ 는 규제 함수) [그림 7-7]에서 “gradient ascent”라 쓰인 영역이 이렇게 찾은 영상을 보여줌
7.2.3 영상 공간으로 역투영 디컨볼루션을 이용한 역투영 입력 영상 I를 주고 관찰 대상 노드를 i를 지정하면, i가 속한 층에서 출발하여 디컨볼루션( 컨볼루션의 역 연산을 적용)을 수행하여 I-1를 보여줌 [그림 7-7]에서 “deconv”와 “deconv of top 9”이라 쓰인 영역이 이렇게 찾은 영상을 보여 줌
7.3 준지도 학습 7.3.1 동기와 원리 7.3.2 알고리즘 준지도 학습이 사용하는 훈련집합 레이블이 있는 𝕏 𝑙 = 𝐱 1 , 𝐱 2 ,⋯, 𝐱 𝑛 , 𝕐 𝑙 = 𝑦 1 , 𝑦 2 ,⋯, 𝑦 𝑛 과 레이블이 없는 𝕏 𝑢 = 𝐱 𝒏+1 , 𝐱 𝒏+2 ,⋯, 𝐱 𝑛+𝑚 보통 𝑚≫𝑛, 즉 레이블이 없는 샘플이 훨씬 많음
7.3.1 동기와 원리 레이블이 없는 데이터가 정말 도움이 되는가 그럴 수도([그림 7-10]) 아닐 수도 있음([그림 7-11]) ‘주어진 데이터의 구조에 적합한 모델을 사용하는’ 경우 성능 향상
7.3.2 알고리즘 생성 모델 𝕏 𝑙 과 𝕏 𝑢 를 가지고 𝑃(𝐱)를 추정 ( 𝕐 𝑙 을 무시한 비지도 학습). 이때 6.4.2절의 가우시안 혼 합을 사용한다. 각각의 가우시안은 자신에 속한 샘플을 보고 부류를 정한다. 각 부류는 자신에 속한 가우시안으로 𝑃(𝐱|𝑦)를 추정한다. 적용에 한계 가우시안 분포에 맞는 데이터로 국한해야 함 가우시안 혼합을 적용할 때 가우시안 개수를 정확하게 알기 어려움
7.3.2 알고리즘 현대적 생성 모델 4.5.2절에서 소개한 생성 모델 GAN을 사용 가짜 샘플에 해당하는 c+1이라는 레이블을 추가로 사용 분별기 D의 목적함수는 세 가지 항을 가짐 가짜 샘플을 c+1에 배정하는 항 𝕏 𝑢 샘플이 c+1에 배정되는 것을 막는 항 𝕏 𝑙 샘플을 해당 부류로 배정하는 항
7.3.2 알고리즘 자가 학습self learning 소속이 애매한 샘플에 민감한 상황 발생 O 표시된 점은 레이블링 된 샘플 X 표시된 점은 레이블링 안 된 샘플
7.3.2 알고리즘 협동 학습co-training 학습기 2개가 서로 협동하여 𝕏 𝑒𝑥𝑝𝑎𝑛𝑑 를 확장하면서 발전해 감
7.3.2 알고리즘 학습기 2개가 서로 가르치는 방식으로 수정하면
7.3.2 알고리즘 그래프 방법 샘플 사이의 유사도에 따라 그래프를 구성 예, 샘플마다 k개의 최근접 이웃을 찾아 에지로 이어줌 복잡한 비선형 분포를 반영하기 위해 정교한 그래프 구축 방법 필요 최소 분할 적용하여 분할선 찾음 같은 부분집합에 속하는 샘플에 같은 부류 레이블 부여 빨간색과 파란색 노드는 레이블링 된 샘플 흰색 노드는 레이블링 안 된 샘플
7.3.2 알고리즘 표현 변환 단계 1을 구현하는 방법 6.5~6.6절 기법 얕은 변환이라는 한계 6.7.2절의 적층 오토인코더 깊은 변환
7.3.2 알고리즘 밀집 지역 회피 결정 경계가 밀집 지역을 지나면 오분류 가능성 높아짐 밀집 지역을 회피하여 결정 경 계를 정함 예, TSVM(트랜스덕티브 SVM)
7.4 전이 학습 7.4.1 과업 전이 7.4.2 도메인 전이 일상 생활에서 전이 학습 기계 학습에서 전이 학습 피아노를 칠 줄 아는 사람은 못 치는 사람보다 바이올린을 빨리 배움 C언어에 익숙한 학생은 파이썬을 금방 배움 두 영역의 공통 지식을 공유하기 때문 기계 학습에서 전이 학습 어떤 도메인에서 제작한 프로그램을 데이터가 적어 애를 먹는 새로운 도메인에 적용하여 높은 성능을 얻는 기법 현대 기계 학습에서 널리 활용되고 있음
7.4 전이 학습 과업이 다른 경우와 도메인이 다른 경우로 구분
7.4.1 과업 전이 과업 전이의 성공 사례 2012년 ILSVRC대회에서 AlexNet은 오류율 16.3%의 경이로운 성능 달성 딥러닝의 가능성을 입증 프로그램, 가중치, 하이퍼 매개변수 등 모든 것을 공개하여 전이 학습을 개척함 영상 인식에서 과업 전이가 성공함으로써 전이 학습이 뜨거운 연구 주제로 부상
7.4.1 과업 전이 기성 CNN 특징 성공적으로 학습된 신경망의 특징 추출 부분을 다른 과업에 활용
7.4.1 과업 전이 동결 방식 [그림 7-16]의 파란색 실선 화살표로 표시된 층 중 하나를 골라 특징을 취함 이 특징은 컨볼루션 층을 여럿 통과하면서 정제되었으므로 얕은 신경망(예, MLP)을 사용 해도 높은 성능으로 분류할 수 있음
7.4.1 과업 전이 미세 조정 방식 [그림 7-16]의 FC 부분을 떼어낸 후, 새로운 구조를 덧붙여 다시 학습 이때 학습률을 낮게 설정해야 함(높으면 원래 가중치가 훼손)
7.4.1 과업 전이 이후 발전한 기성 CNN 왜 작동할까? [Yosinski2014]의 의미 있는 설명 하지만 불충분한 설명 미래의 좋은 연구 주제
7.4.2 도메인 전이 도메인 전이 도메인 적응domain adaptation 과업은 같은데(즉 레이블 공간이 같음), 도메인이 다른 상황 특징 공간이 다른 경우와 특징 공간은 같은데 확률분포가 다른 경우로 나뉨 후자를 도메인 적응이라 부름 도메인 적응domain adaptation 예, 나뭇잎 인식 원천 도메인은 따낸 나뭇잎 목표 도메인은 나무에 붙어있는 나뭇잎 영상
7.4.2 도메인 전이 도메인 전이 방법 [Daume2009] 방법 원천 도메인의 훈련집합 𝕏 𝑠 = 𝐱 𝑠1 , 𝐱 𝑠2 ,⋯, 𝐱 𝑠𝑛 , 𝕐 𝑠 , 목표 도메인의 훈련집합 𝕏 𝑡 = 𝐱 𝑡1 , 𝐱 𝑡2 ,⋯, 𝐱 𝑡𝑛 목표 도메인을 위한 레이블 정보 𝕐 𝑡 는 있을 경우(지도 도메인 적응), 없는 경우(비지도 도 메인 적응), 일부만 있는 경우(준지도 도메인 적응)로 나뉨 [Daume2009] 방법 특징 공간을 3배로 확장하여 두 도메인의 확률분포를 맞춤
7.4.2 도메인 전이 [Sun2016] 방법([Daume2009]를 비지도 도메인 적응으로 확장) [그림 7-18]에서 파란 점은 원천 도메인 샘플, 빨간 점은 목표 도메인 샘플 화이트닝 변환과 컬러링 변환으로 두 도메인의 확률분포를 맞춤
7.4.2 도메인 전이 알고리즘 형태로 쓰면, [알고리즘 7-3]으로 변환한 훈련집합 𝕏 𝑠 ∗ , 𝕐 𝑠 를 가지고 학습기를 학습한 후, 목표 도메인에 활용