Download presentation
Presentation is loading. Please wait.
1
웹 스크래핑
2
Python
3
패키지 설치 R과 달리 Python에서 패키지 설치는 별도의 프로그램 사용 conda로 먼저 설치 시도 안되면 pip로
명령창 열기 탐색기 주소창에 cmd 또는 SHIFT+우클릭 여기서 명령창 열기
4
수업에서 사용할 패키지들 패키지 소개 명령 창에 다음을 입력 requests: HTTP를 위한 패키지 lxml: HTML 처리
cssselect: HTML 처리(s가 3개) 명령 창에 다음을 입력 conda install lxml pip install requests cssselect
5
HTTP
6
웹 기술 JavaScript HTML HTTP TCP/IP 하드웨어
7
HTTP HyperText Transfer Protocol Request Server Client Response
8
HTTP Method GET: 서버의 자원(resource)을 가져올 때 POST: 서버에 자원을 추가할 때
목록 보기 글 보기 다운로드 POST: 서버에 자원을 추가할 때 글 쓰기 업로드 구분이 잘 지켜지지 않음 PUT, DELETE 등 method도 있으나 웹 브라우저는 지원X
9
HTTP Status Code 4XX: Client Error 5XX: Server Error 세 자리 수
2XX: Success 200 OK 3XX: Redirection 302 Found 4XX: Client Error 400 Bad Request 403 Forbidden 404 Not Found 405 Method Not Allowed 5XX: Server Error
10
HTML
11
HTML HyperText Markup Language 사람과 컴퓨터가 읽을 수 있는 양식
트리(tree) 형태의 구조를 가짐
12
HTML html head body title p table img
13
HTML 모든 노드(node)는 태그(tag)로 감싸여 있음 노드는 내용과 별개로 속성(attribute)을 가짐
<p>내용</p> 노드는 내용과 별개로 속성(attribute)을 가짐 <a href=“
14
HTML 노드를 선정하는 방법 CSS 선택자(selector) XPath HTML 문서의 서식을 지정하기 위한 용도 짧고 간단
대부분의 경우에는 충분함 XPath 복잡한 조건으로 노드를 선택할 때 사용 lxml의 기본 사용법
Similar presentations