Download presentation
Presentation is loading. Please wait.
1
트위터 크롤링
2
setwd 함수를 사용하여 데이터를 저장해 놓은 ‘C:/Rcrawl’로 작업 폴더를 지정을 해준다.
다시 한번 getwd 함수를 사용하면 작업 폴더의 경로가 변경된 것을 확인할 수 있다.
3
트위터 크롤링을 하기 위해 twitteR, ROAuth, base64enc 패키지를 install
트위터 크롤링을 하기 위해 twitteR, ROAuth, base64enc 패키지를 install.packages 함수를 사용하여 설치한다. 그리고 설치한 패키지를 사용하기 위하여 library 함수를 사용하여 프로그램에 업로드한다. install.packages 함수를 실행하면 그림과 같이 정상적으로 설치된 것을 확인할 수 있다.
4
트위터 크롤링을 하기 위해서는 필요한 Key 값들이 있다. Key 값을 발급받기 위해 트위터 앱 사이트(http://apps
트위터 크롤링을 하기 위해서는 필요한 Key 값들이 있다. Key 값을 발급받기 위해 트위터 앱 사이트( 접속한다. 접속한 후 오른쪽 위에 Sign in을 클릭하여 로그인을 한다. (아이디가 없을 경우 회원가입을 해야한다.)
5
로그인을 하면 다음과 같이 화면이 나온다. 화면에 Create New App을 클릭하여 새로운 앱을 만든다.
6
Create New App을 클릭하면 다음과 같이 입력 창이 나타난다.
화면에서 *표시가 되어있는 Name, Description, Website를 입력해야 한다.
7
Name : Application 이름 입력(32글자 이내)
Description : Application에 대한 설명 입력(10~200 글자 이내) Website : 자신의 블로그 URL 주소나 다른 웹 사이트의 URL 주소를 입력
8
필수 입력 사항을 입력한 후 동의(Yes, I agree) 부분을 체크한 후 Create your Twitter application을 클릭하여 앱을 만든다.
9
앱을 만들고 나면 다음과 같이 화면이 나온다. 앱 제목 밑에 있는 Keys and Access Tokens를 클릭하여 트위터 크롤링에 필요한 Key 값을 확인한다.
10
Keys and Access Tokens를 누르면 다음과 같이 나온다
Keys and Access Tokens를 누르면 다음과 같이 나온다. 여기에서 Consumer Key (API Key)와 Consumer Secret (API Secret) 값을 코드에 입력한다.
11
트위터 크롤링을 위해 필요한 Access Token 값을 발급받기 위해 Create my access token을 클릭하여 Access Token 값을 발급 받는다.
12
Create my access token을 클릭하면 다음과 같이 Access Token 값들이 발급된 것을 확인할 수 있다
Create my access token을 클릭하면 다음과 같이 Access Token 값들이 발급된 것을 확인할 수 있다. 여기에서 Access Token과 Access Token Secret 값을 코드에 입력한다.
13
트위터 앱을 생성하여 발급받은 Consumer Key (API Key), Consumer Secret Key (API Secret), Acces Token Key, Access Token Secret Key 값을 해당 부분에 입력한다. 다음과 같이 해당하는 부분에 발급 받은 키를 복사해서 각 해당 변수에 저장한다. 그 다음 setup_twitter_oauth 함수를 사용해서 oauth 인증 파일을 저장한다. 코드를 실행하면 다음과 같이 Console창에 출력되는데, 이때 Console 창에 커서를 놓고 1(yes)을 선택한다.
14
enc2utf8 함수를 사용하여 트위터에서 검색할 키워드를 keyword 변수에 저장한다
enc2utf8 함수를 사용하여 트위터에서 검색할 키워드를 keyword 변수에 저장한다. 본 책에서는 빅데이터에 관한 트위터 글들을 크롤링하기 위하여 keyword 변수에 빅데이터를 저장하였다. searchTwitter 함수를 사용하여 keyword 변수에 저장한 키워드를 검색하여 크롤링하여 bigdata 변수에 저장한다. 코드에서 n의 값을 설정하여 크롤링할 트윗 수와 lang를 설정하여 언어를 선택한다. 본 책에서는 한글로 된(lang=“ko”) 500개의 트윗(n=500)을 크롤링 하였다. length 함수를 사용하여 bigdata 변수에 저장된 수를 확인하고, head 함수를 사용하여 bigdata 변수에 저장한 내용의 앞부분을 확인한다.
15
length 함수를 실행한 결과 500개의 트윗이 크롤링된 것을 확인할 수 있다.
head 함수를 실행한 결과 저장된 500개의 트윗이 설정한 키워드로 크롤링된 것을 확인할 수 있다.
Similar presentations