엑셀을 이용한 테이블 자료 분석 한국어 정보의 전산 처리 2017. 3. 20..

Slides:



Advertisements
Similar presentations
순천대학교 일어일문학과 96 학번 졸업생 ㈜에이엔케이플랜트서비스 대표이사 안 형 철. 1. 자기소개 2. 직업이란 무엇인가 ? 3. 직업의 종류 4. 왜 직업을 가져야 하는가 ? 5. 어떤 직업이 좋은 직업인가 ? 6. 우리는 무엇을 준비해야 하는가 ?
Advertisements

신진영 현지 조사 방법 및 보고서 작성법 제 10 강 - 측정 및 척도 - - 통계적 추론 원리 -
폭력. 폭력이란 무엇인가 우상의 눈물 물리적인 폭력 ( 최기표 ) VS 지능적인 폭력 ( 임형우, 담임선생님 )
1 과제물 6 호 설명자료 제출마감 : 2012 년 12 월 3 일 ( 월 ) 24 시 이병완교수의 화폐금융론 2012.
1 박 2 일 !!! 인천마장초등학교 유수아. 1 박 2 일 멤버 인기순 위 1 위 이승기 2 위 엄태웅 3 위 은지원 4 위 김종민, 이수근 ※인터넷에서 본것이기 때문에 사람에따라 서 다를 수 있다. ※
자기개발과 경력관리 홍 진 기.
석관중앙교회 5남전도회 석 관 중 앙 교 회 회원 소식 통권 05-04호 발행일 : 2005년 04월 회 장 : 장진호 집사
밥상의 희로애락 제 5 강 욕망의 밥상 - 탐식 GOOD JOB 식사하셨나요?.
Windows Programming 담당교수: 이상정 교수님 발표자 : 김인태 학번 :
1. 기관별 맞춤형 집중교육 : 실습 및 개인별 집중지도    1. 기관별 맞춤형 집중교육 : 실습 및 개인별 집중지도 (상설) 기관별 맞춤형 교육 - 당 교육기관에서.
지역사회복지론 1조. 요양보호시설에 대해서 황성국 임재형 이동영
해수면이 높아졌다 낮아져 8조 박도훈 박혜정 임지원.
좋은 강의 국제관계학과 정연식.
Keller: Stats for Mgmt & Econ, 7th Ed
IT Application Development Dept. Financial Team May 24, 2005
한국어 정보의 전산 처리 강좌 소개 박진호 (서울대 국문과 교수).
SAP QUERY SAP R/3 4.6C.
기술 통계학 (Descriptive Statistics)
I 문학의 개념과 역할 1. 문학의 개념 (1) 언어 예술로서의 문학 (2) 소통 활동으로서의 문학
데이터 파일 구성 셀(cell) : 행과 열이 교차하는 부분으로서 특정 변수에 대한 특정 케이스(응답자)의 응답치가 입력됨.
노무관리 교육 10분만 시간 내십시오 복잡하게 보이는 노무관리 완벽하게 이해시켜 드립니다. 1.
ITQ 파워포인트 문제풀이 TIP ::: 2007년 4월 8일 시험부터 적용 :::
4. 목적론적 윤리와 의무론적 윤리 01. 경험주의와 이성주의 01. 경험주의와 이성주의 02. 결과론적 윤리와 공리주의
의료의 질 평가 분석 기법 김 민 경.
Apache Hive 빅데이터 분산 컴퓨팅 박영택.
순환&면역 6조 박아름 이명동 최제춘.
롯데마트 CRM 데이터 분석 교육 2014년 12월 > RE::VISION 전용준 리비젼컨설팅 대표
문자코드 변환 콘코던서 형태소분석기 한국어 정보의 전산처리
9.확률 분포 정규 분포 형태 : 평균을 중심으로 좌우대칭의 종 모양을 가진 분포이다.
6장 히스토그램 처리 차 례 히스토그램의 개요 히스토그램의 용도 영상 이치화 히스토그램 평활화 히스토그램 스트레칭
7장 클래스.
컴퓨터 활용 및 실습 Chapter 3 수식과 함수 김 정 석
MINITAB for Six Sigma.
논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원.
Keller: Stats for Mgmt & Econ, 7th Ed 그래프와 표를 이용한 기술통계학 기법
개항기 조선과 동아시아 박 범 한국역사입문Ⅱ.
Chapter 08. 다양한 실무 함수 익히기.
인터넷 교육
Keller: Stats for Mgmt & Econ, 7th Ed
생물학적 종으로서의 인간 국제경영학부 윤효송.
Python.
한국어 정보의 전산 처리 강좌 소개 박진호 (서울대 국문과 교수).
Vim editor (1/4) 김선영 버 전: 버 전: 인사이트 출판사 가메출판사 저자홈페이지.
제1장 통계란? 제2장 데이터의 정리 제3장 데이터의 요약.
대구의 부도심 대구의 주요축 동대구 부도심 4조 강민석 / 박성균 / 최은지/ 황재현/김예지.
사용자 경험 측정 (Measuring User Experience)
우리나라의 수자원 물 보기를 금같이 우리나라의 수자원 현황 우리나라의 수자원 이용 현황.
06. SQL 명지대학교 ICT 융합대학 김정호.
제3학술정보관 설립을 위한 도서관 이용실태 조사
지역의 자연 환경과 인문환경 조사 사회 1학년 1학기 Ⅰ.지역과 사회 탐구>1.지역사회의 지리적 환경(3/6
주차권 발행기(바코드).
사도행전 13장 22절 말씀 –아멘 다 윗 을 왕 으 로 세 우 시 고 증 언 하 여 이 르 시 되 내 가 이 새 의 아 들
드릴링머신 1. 구멍은 기계부품에서 가장 많이 볼 수 있는 형상으로(단순체결 볼트구멍 , 정밀 조립구멍, 큰구멍 작은구멍, 깊은구멍 , 얕은구멍 등) 드릴링머신은 주로 원형구멍 가공하는 공작기계임.
법인과 개인의 조세 (법인세, 소득세, 부가가치세)
1. Cut 편집.
-자료형과 연산- IS lab. 김건영 Python -자료형과 연산- IS lab. 김건영
2015년 2학년 1반.
안내선 교차점에 첫 번째 텍스트 설명 배치 안내선 교차점에 두 번째 텍스트 설명 배치 그림 배경 위의 투명한 애니메이션 도형
가을에 만날 수 있는 곤충.
경찰행정과 세미나 결과를 공개해야한다. VS 비공개로 해야한다. 경찰의 근무성적평정 제도.
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
테이블 데이터 처리용 command line tool들
유체역학 마이크로마노미터의 이론과 공식을 설명하라. 환경공학과 김기복.
차트 만들기 p.307 미리 x축의 항목과, 데이터 계열의 이름이 나타날 수 있도록 지정하는 것이 편리하다.
경영통계학 제1장 통계학은 어떤 학문인가? What is Statistics? 1.1.
R 기초 2 데이터 시각화 한국어 정보의 전산 처리
일반대학원 사용자 매뉴얼(학생)
에서 트리니티 아이디와 패스워드 치기 Download, Packages CRAN
fastestslowest 실제 질의문에서 사용 타입 추천 인덱스 SELECT list Default
교통운영 및 실습 - 데이터 분석 무엇이 문제인가? 왜 그런가? (예) - 버스 승객이 왜 줄어드는가?
Presentation transcript:

엑셀을 이용한 테이블 자료 분석 한국어 정보의 전산 처리 2017. 3. 20.

테이블 자료란? 테이블 자료: 행과 열이 교차하는 사각형 형태의 자료 엑셀, gawk, csvkit, R 등의 많은 데이터과학의 tool들은 테이블 자료를 처리하는 데 최 적화되어 있음. 행(가로줄, row): 하나의 개체에 해당. 줄바꿈으로 구분. 테이블의 첫 행은 실제 데이터가 아니라, 각 변수의 이름인 경우가 많음. 열(세로줄, column): 하나의 속성/변수에 해당. 쉼표나 탭으로 구분 쉼표로 구분된 파일은 csv(comma separated value), 탭으로 구분된 파일은 tsv(tab separated value)라 함. 변수의 종류 수치형(numerical): 정수, 실수 등의 수치로 표현되는 변수 범주형(categorical): 수치가 아닌, 범주로 표현되는 변수 범주형 변수에는 순서가 없는 것과 순서가 있는 것(예: 수, 우, 미, 양, 가)이 있음. 테이블에 대해 흔히 행해지는 조작 요약 통계: 수치형 변수의 합계, 평균, 표준편차 등 추출 집계: 범주형 변수의 값별로 관측치의 빈도나 여러 통계량 추출 변수간 상관관계: 범주형: 카이제곱검정, 수치형: 상관분석

테이블과 테이블의 통합 두 테이블이 key가 되는 열을 공유할 때, 두 테이블을 통합(join)할 수 있음. join, csvjoin 등의 command line tool을 이용하여 통합할 수 있음. R에서도 쉽게 가능. score.csv와 party.csv를 csvjoin으로 통합 csvjoin –c name score.csv party.csv >50students.csv name이라는 이름의 열/변수를 통합의 축으로 하여 두 파일을 통합 이 파일들은 utf-8로 되어 있는데, 이를 cp949로 코드 변환 uniconv utf-8 50students.csv cp949 50students_cp949.csv

엑셀에서 테이블을 불러와 정돈하기 50students_cp949.csv를 엑셀에서 연다. 표 서식을 적용하여 시각적으로 더 보기 좋게 만든다. 수치형 변수에 조건부 서식을 적용하여 각 점수대가 다른 색으 로 보이게 한다. 기존 열/변수들을 바탕으로 필요한 열/변수를 추가한다. 국어, 영어, 수학, 물리, 화학 점수를 더하여 총점을 추가한다. 열을 추가하여 첫째 행에 변수 이름(sum)을 써 넣고, 둘째 행에 =SUM(B2:F2)라고 써 넣으면 나머지 행들에도 자동으로 적용된다. 총점을 과목 수(5)로 나누어 평균을 추가한다. 열을 추가하여 첫째 행에 변수 이름(avg)을 써 넣고, 둘째 행에 =G2/5라고 써 넣으면 나머지 행들에도 자동으로 적용된다.

피벗 테이블로 집계하기 1 [삽입-피벗테이블] 또는 [삽입-추천 피벗 테이블] 메뉴를 이용하 여 피벗테이블을 만든다. 가장 단순한 형태의 피벗 테이블은 하나의 범주형 변수에 대하 여 특정 값을 집계한 것. ‘피벗 테이블 필드’ 메뉴에서 ‘행‘ 필드에 관심의 대상이 되는 범 주형 변수를 추가하고, ‘값‘ 필드에 집계할 변수를 추가한다. 집계 방법의 default는 합계임. 이것을 변경하고 싶으면, ‘값’ 필 드의 드롭다운 메뉴 ‘값 필드 지정’에서 다른 집계 방법을 선택 한다.

피벗 테이블로 집계하기 2 범주형 변수와 범주형 변수를 조합하여 집계할 수도 있다. 피벗 테이블의 열(세로줄)에 추가할 변수를 ‘열‘ 필드에 추가하고 피벗 테이블의 행(가로줄)에 추가할 변수를 ‘행‘ 필드에 추가한다. 하나의 변수만 추가할 수도 있고, 둘 이상의 변수를 추가할 수도 있다. 2개의 변수를 추가하면, 일단 첫째 변수를 기준으로 집계표를 만들고 둘째 변수는 +를 클릭하면 확장된 팝업 창으로 보여준다. ‘값’ 필드의 드롭다운 메뉴 ‘값 필드 지정’에서 집계 방법을 선택한다. 가장 단순한 경우는 ‘개수(빈도, frequency)’를 선택한다. 두 범주형 변수의 각 조합에 대한 집계된 값을 시각화하려면, 피벗 테이블에 커서를 둔 상태에서 [삽입-차트-2차원 세로 막대형]을 선 택한다.

피벗 테이블로 집계하기 3 범주형 변수와 범주형 변수를 조합하여 집계하되, 각 조합 셀에 들어갈 값을 ‘개수‘가 아닌 다른 집계 방법을 선택할 수 있다. 예컨대 ‘열’ 필드에 party 변수를 추가하고, ‘행‘ 필드에 job 변수 를 추가하고, ‘값’ 필드에 avg 변수를 추가하되, 집계 방법을 ‘평 균‘으로 할 수 있다. 이렇게 하면, 각 지지정당-직업별로 그 조합 범주에 속하는 사 람들의 5과목 평균점수의 평균이 각 셀에 나타난다. [삽입-차트-2차원 세로 막대형]을 선택하면, 각 직업-지지정당별 로 평균점수의 평균을 막대 그래프로 보여준다.

특정 변수에 대한 히스토그램 특정 열/변수를 일정한 구간별로 빈도를 집계하여 히스토그램을 그리 려면, 우선 [파일-옵션-추가기능] 메뉴의 ‘이동‘ 버튼을 눌러, 팝업 창에 서 ‘분석 도구‘를 선택한다. 그러면 [테이터] 메뉴의 맨 우측에 [테이터 분석] 메뉴가 추가된다. 테이블에서 열을 추가하여, 첫째 행에 적당한 이름을 써 주고, 둘째 행 부터 집계하고자 하는 변수의 각 구간의 끝 값을 써 준다. [데이터-테이터 분석-히스토그램]을 선택하여 뜨는 팝업 창에서 ‘입력 범위‘에는 집계하고자 하는 변수를 $H:$H와 같은 형식으로 써 주고, ‘계급 구간‘에는 추가한 열을 $M$1:$M$7와 같은 형식으로 써 준다. 첫째 행에는 변수 이름이 있으므로 ‘이름표‘에 체크를 해 준다. ‘확인’ 버튼을 누르면 집계표가 만들어지고 [삽입-차트-2차원 세로 막대형]을 선택하면 히스토그램을 보여준다.

기술 통계량(descriptive statistic) 평균(mean), 중앙값(median), 최빈값(mode), 분산, 범위, 최소값, 최대값, 범위, 첨도, 왜도 등의 기술 통계량을 얻기 위해서는 [데이터-데이터분석-기술통계법] 메뉴를 선택한다. 팝업 창의 ‘입력 범위‘에 관심의 대상인 변수를 써 준다. $B:$H 라고 하면 B열부터 H열까지의 변수가 모두 포함된다. ‘출력 옵션‘에서는 관심의 대상인 통계량을 모두 선택한다.

수치형 변수들 사이의 상관관계 수치형 변수들 사이의 상관관계를 알아보고 싶으면 [데이터-데이터분석-상관분석] 메뉴를 선택한다. 팝업 창의 ‘입력 범위‘에 관심의 대상인 변수들을 써 준다. 첫째 행에는 변수 이름이 있으므로 ‘첫째 행 이름표 사용‘을 체 크해 준다. ‘확인’을 클릭하면 상관분석 결과표가 나타나는데 대각선 위치의 셀들은 같은 변수끼리의 상관계수이므로 1인 것 이 당연하다. 이것들은 지운다. 나머지 셀들에 대해 [조건부 서식-색조]를 선택하면, 상관계수의 크기에 따라 서로 다른 색깔로 보여준다.

수치형 변수들 사이의 scatterplot 한 변수는 X축에, 다른 변수는 Y축에 표시된다. 메인 테이블에서 관심의 대상인 두 변수를 선택한다. 첫째 변수/열의 맨 위의 명칭(예컨대 B)을 클릭하고, Ctrl 키를 누른 상 태에서 둘째 변수/열의 맨 위의 명칭(예컨대 C)를 클릭한다. [삽입-차트-분산형] 메뉴에서 적절한 그래프를 선택한다. 차트 제목을 더블클릭하여 제목을 적절히 수정한다.

B열과 C열을 선택한 모습

엑셀 vs. gawk vs. R 테이블 형식의 데이터를 처리할 때, command line에서 간단한 처리를 할 때에는 gawk가 편할 때가 많고 <50students.csv gawk 'BEGIN{FS=",";OFS=","} { sum=$2+$3+$4+$5+$6; avg=sum/5; print $1,$2,$3,$4,$5,$6,sum,avg,$7,$8,$9,$10 }' 통계 처리 및 시각화를 위해서는 R이 대개 훨씬 더 강력하다. students <- read_csv("50students_ext.csv") #csv 파일을 읽어들임 by_class <- group_by(students, class) #class별로 그룹화 summarize(by_class, avg2=mean(avg)) #class별로 avg의 평균을 냄 by_class_party <- group_by(students, class, party) #class, party별로 그룹화 summarize(by_class_party, cnt=n()) #class, party별로 개체의 수를 count함

R에서의 처리 ggplot(students) + geom_bar(aes(party,fill=class), position="dodge") class, party별로 개체의 수를 count의 시각화 ggplot(students) + geom_count(aes(party,class) 위의 수치를 다른 방식으로 시각화 by_party_job <- group_by(students, party, job) party, job별로 그룹화 by_party_job_summary <- summarize(by_party_job, avg2=mean(avg)) 위의 그룹별로 avg의 평균을 냄 ggplot(by_party_job_summary, aes(job,avg2,color=party))+geom_point() 위의 수치의 시각화 ggplot(students)+geom_histogram(aes(avg), binwidth=10) 평균점수를 10점 구간별로 히스토그램 그리기

R에서의 처리 ggplot(students)+geom_bar(aes(job, fill=gender), position=“dodge”) 직업별로 막대그래프를 그리되, 性에 따라 막대를 따로 표시 ggplot(students) + geom_bar(aes(job, fill=party)) 직업별로 막대그래프를 그리되, 각 막대에서 지지 정당을 색조로 채움 summary(students) #테이블의 각 변수에 대한 기초 통계 요약 cor(students$kor, students$eng) #국어점수와 영어점수의 상관계수 ggplot(students, aes(phy,che)) + geom_point() + geom_smooth() 물리점수를 X축에, 화학점수를 Y축에 scatterplot으로 표시하고, 두 점수 사이 의 상관관계를 나타내는 선을 추가 ggplot(students) + geom_point(aes(kor,math,color=job)) 국어점수를 X축에, 수학점수를 Y축에 scatterplot으로 표시하되, 각 학생의 직 업을 색조로 표시