How to prepare tables and figures 가톨릭대학교 의과대학 예방의학교실 가톨릭중앙의료원 임상연구지원센터 임현우 2016.05.30
표 그리기 Table과 Figure의 작성요령은 학술지마다 다소 다르다. 해당 학술지의 투고요령을 참조하여 만드는 작성하는 것이 가장 좋은 방법이다. 일반적으로 과학논문에서는 Table에 vertical line을 사용할 수 없다. 또한 table에서 complete horizontal line은 최대 3개만 사용한다. Table과 figure안에 사용한 약어는 모두 설명해야 합니다. 따라서 불필요한 약어를 사용하지 않는다. 예) Px=prognosis Dx=diagnosis Tx=Treatment Pt=patient는 가급적 약어를 사용하지 말 것 가급적 portrait format으로 작성한다(landscape format은 typeset page를 길게 만든다) table에서의 글씨 크기는 8 to 12 point font size 를 사용할 수 있다. Table과 Figure의 제목이 2줄 이상이 될 때는 둘째 줄을 첫째 줄의 첫 번째 글자(Table의 T 또는 Figure의 F)바로 아래에서 시작한다. Table의 제목은 상단에 넣고, Figure의 제목은 하단에 넣는다 Too big tables 해결방법 Smaller font size 사용( 8-point font size까지 사용가능) Table 2 cont(inued) 권고하지 않음.
표 제목 표의 Title 단어의 첫 글자를 대문자로 표기하는 학술지가 많다. 이때 다음과 같은 단어는 대문자로 표기하지 않는다. (1) 관사(article): the, a, an (2) 3글자 이하의 전치사(preposition) up, on, in, for, at, by, to, of, as, via, per <cf> 4글자 이상의 전치사: Upon, Between, Concerning, Plus , After, Before, During, With, Without, Under, Over, Below (3) 등위 접속사(coordinating conjunction): and, but, or, for, nor (4) 접두사와 접미사 예) Intra-abdominal Surgery Anti-inflammatory Drugs (5) Single word로 간주되는 복합어 예) Long-term Treatment Follow-up Studies Part-time Nursing Staff X-ray films * 관사, 전치사, 등위접속사도 문장 맨 앞에서는 물론 대문자로 쓴다
Table에서 각주 기호(Footnote sign) 어떤 학술지에서는 각주에 설명 되어진 표 안의 각 항목에 각주 기호로 [1] 윗 첨자(superscript) 번호 이것을 권고 [2] 윗 첨자 영어 알파벳 소문자 [3] 윗 첨자 각주 기호 표에서 사용할 수 있는 10가지 각주 기호(footnote sign)의 순서 * 별표(asterisk) † 칼표(dagger) ‡ 이중칼표(double dagger) § 절부호(section mark) ∥ 평행부호(parallel mark) ¶ 문단부호(paragraph symbol) # 수기호(number sign) ** 중복별표(repeated asterisk ) †† 중복칼표(repeated dagger) ‡‡ 중복이중칼표(repeated double dagger) 를 붙이도록 요구하는데, 윗 첨자(superscript) 번호의 경우 제곱, 세제곱 같은 윗 첨자나 참고문헌 번호와 혼동되는 경우가 많아 대부분의 학술지는 각주 기호 (footnote sign)를 사용하는 것을 권장하고 있다.
Table에서 각주를 달지 않고도 사용할 수 있는 약자 amt amount mo month approx approximately N n no. number avg average SD standard deviation concn concentration SE standard error diam diameter s, se second expt experiment(al) sp gr specific gravity ht height vs., v versus h, hr hour vol volume kg kilogram wk week min minute wt weight mol wt molecular weight y, yr year * 주의: 1) 시간을 나타내는 단위의 약어( h, d, wk, y)는 Table과 Figure 안, virgule construction 안에서 사용한다. 예: 30 mg/d 는 가능하다 2) 단위의 약자에는 복수형 어미 s를 붙이지 않는다 예: 30ds는 잘못된 표현 30days로 표현해야 함
표 예제
- 표는 깔끔하게 사실을 정돈한 간결한 형식으로 연구대상의수: 제목에… 혹은 칸 제목 아래에… 단위는 줄 내용 다음에 +_와 띄여쓰는 겻이 원칙이나, 단어수를 줄여야 되는 경우에는 붙여씀 - 표는 깔끔하게 사실을 정돈한 간결한 형식으로 연구대상의수: 제목에… 혹은 칸 제목 아래에… 단위는 줄 내용 다음에 시간경과에 따른 비교가 표의 목적인 경우
` 제목, 줄제목에서는 전치사, 관사 제외하고 첫글자는 대문자 칸제목, 칸 내용의 첫글자는 대문자 %는 숫자 뒤에 넣던지, 줄제목에 넣던지 칸 제목은 가운데 정렬 표에 기술된 것은 본문에 언급되어야 한다. +_와 띄여쓰는 겻이 원칙이나, 단어수를 줄여야 되는 경우에는 붙여씀
표에 P value 를 기술하는 방법 P value는 소수점 이하 3자리까지 만 표기한다. 예) P = .032 P = .020 P value 가 .001미만 일 때는 P < .001로 표기하고 , P value가 .999보다 클 때는 P > .999로 표기한다. P value는 실제 값으로 표기한다. (Table이나 Figure안에서 실제값 대신 “not significant” 혹은 “NS”로 표기하지 않는다)
1. 연구대상자에 대한 기술
1. 연구대상자에 대한 기술 잘못된것 찾아내기 N Engl J Med.2000;343(9):611-7.
1. 연구대상자에 대한 기술 논문3_DX J Pancreas 2005;6(5): 562-567
1. 연구대상자에 대한 기술 N Engl J Med 2001;345(11): 784-789
2. 결과 표, 그림의 작성 논문3_DX J Pancreas 2005;6(5): 562-567
2. 결과 표, 그림의 작성 Neuroscience Vol. 106, No. 4, pp. 653-658, 2001
2. 결과 표, 그림의 작성
2. 결과 표, 그림의 작성 선 그림을 사용할 때는 수치자체보다 전체적인 양상이 더 중요할 때 사용해라!!
2. 결과 표, 그림의 작성 신뢰구간을 표시하는 것이 중요할 때 선 그래프 척도는 정확하게!! Odds ratio는 로그척도로…
Figure 2. Inferential error bars.
Figure 3. Estimating statistical significance using the overlap rule for SE bars.
Figure 4. Estimating statistical significance using the overlap rule for 95% CI bars.
Figure 6. Inferences between and within groups.
2. 결과 표, 그림의 작성 신뢰구간보다는 특정 값이 중요할 때 막대 그래프로 결과의 양상을 어떻게 가장 잘 나타낼 것인가!! 비교해야 할 값은 나란히 붙여서 배치 가능한 한 2차원 그래프로 큰 막대가 오른쪽으로 막대의 종류는 3개 까지만
연구목적: Clinical question에 따라 Prevalence Incidence Etiology Diagnostic accuracy Prognosis Therapy Screening Harm Prevention
Clinical question에 따른 Study design Clinical question types Study design Prevalence C/S studies Incidence Cohort studies Etiology Cohort studies, case-control studies Diagnostic accuracy RCTs(rare), case series, C/S studies Prognosis RCTs(rare), Cohort studies Therapy RCTs Screening RCTs, Case-control studies Harm RCTs, Cohort studies, Case-control studies Prevention
THE ESSENTIALS OF STATISTICAL ANALYSIS The 4 main steps in data analysis are: 1. Displaying results in tables and figures 2. Quantifying any associations (e.g., estimates of treatment differences in patient outcomes) 3. Expressing the uncertainty in those associations by use of confidence intervals (CIs) 4. Assessing the strength of evidence that the association is “real” (i.e., more than could be expected by chance) by using p values (statistical tests of significance)
Table of baseline data patients’ baseline characteristics key demographic variables, related medical history, other variables that might be strongly related to the trial endpoints - Categorical variables as number (%) by group. - Quantitative variables, means (and SDs) or median (and interquartile range), geometric means
Table of main outcome events 2. Quantifying any associations 3. Expressing the uncertainty in those associations by use of confidence intervals (CIs) 4. Assessing the strength of evidence that the association is “real” (i.e., more than could be expected by chance) by using p values (statistical tests of significance) - The numbers (%) by group experiencing each type of event The numbers in each component First event vs. all repeat event - The incidence rates over time are fairly steady, % by the incidence rate per 100 patient-years, for example, of follow-up in each group
Kaplan-Meier plot - The numbers at risk 제시 - the time axis should not be extended too far, perhaps not beyond the time when <10% of patients are still under follow-up.
Repeat measures over time 시점 마다 SE bar 추정 초기에는 SE bar 크기가 작다.
Trial Profile
통계 분석 대상자 Baseline data 측정 Allocation Intervention 탈락자 통계분석시 Exclusion은 무작위화 임상시험의 잠재적인 피험자로서 선별검사를 받았으나 모든 조건에 충족하지 않아 임상시험에서 배제되는 경우 Withdrawal은 일단 무작위화가 되었으나 분석에 포함되지 않는 경우 통계분석시 포함 ( ITT분석 ) 배제 ( PP분석 ) withdrawing 배제 (Excluding)
통계분석 대상군 무작위 할당 결과측정 시험약투약 subject withdrawal, ineligibility, non-adherence poor quality data, occurrence of competing event Exclusion은 무작위화 임상시험의 잠재적인 피험자로서 선별검사를 받았으나 모든 조건에 충족하지 않아 임상시험에서 배제되는 경우 Withdrawal은 일단 무작위화가 되었으나 분석에 포함되지 않는 경우 유효성 분석 ITT (Intention to treat) 분석군 : 배정된 대로 분석 PP (per protocol) 분석군 : 계획서 순응분석 안전성분석 안전성분석군
Estimates of Treatment effects and their Cis : Estimated based on percentages - obtain a point estimate the actual difference Observed uncertainty is usually expressed as a 95% CI. 95% CI를 반으로 줄이려면 4배의 피험자수 필요!!
Estimated for time to event outcomes - The curves diverge in favor of ticagrelor, but do not in themselves provide a simple estimate summarizing the treatment difference. - 1-year cumulative rates of 9.8% and 11.7% for ticagrelor and clopidogrel, respectively. (only around one-half of the patients have been followed for a year) - use a Cox proportional hazards model to obtain a hazard ratio hazard ratio: the instantaneous hazard rate at any specific time point is the probability of the outcome occurring exactly at that time for patients who are still outcome-free
Estimated for time to event outcomes 결과가 cross하는 경우 The focus on the 5-year composite event rate (18.7% on CABG, 26.6% on PCI) is informative? 5년 시점에 1/3만 추적되었음.
Estimated for time to event outcomes vertical interpretation vs Horizontal interpretation Horizontal interpretation Horizontal interpretation focusing on event-free time gained may be more appropriate For instance, a time ratio of 1.5 means that, on average, it takes 50% longer for an event to occur in patients on the new treatment compared with control subjects.
Estimated for quantitative outcomes quantitative outcome is measured repeatedly over time at planned visits, 1) the mean treatment difference averaged over time 2) the differing rates of decline (slopes) 3) a mean treatment effect at a specific point of follow-up Mean Mean change Mean changes adjusted for baseline value (based on the concept of regression to the mean) absolute change or percentage change from baseline. Statistically, it depends on which gives the better model fit using ANCOVA.
Estimated for quantitative outcomes The 2 drawn parallel regression lines show the anticipated regression to the mean
Estimated for quantitative outcomes High skewed data 1) to use a suitable transformation (e.g., natural logarithm leading to comparison of geometric means); 2) to use nonparametric analyses, often focusing on a comparison of medians; 3) to focus on a particular cut-off value(s) (e.g., the upper limit of normal in liver function tests) with a consequent comparison of percentages.
예: - there is insufficient evidence that renal denervation reduces SBP - it may be that renal denervation has a modest effect OR it may have no effect: the data are inconclusive.
multiplicity of data multiple endpoints and subgroup analyses covariate-adjusted analyses individual patient’s absolute benefits and absolute risks. intention to treat (ITT) how to interpret surprisingly large treatment effects
Multiplicity of Data Predefined statistical analysis plan (SAP) that is fully signed off before database locking and study unblinding. Pre defined primary endpoint Time of follow up or a fixed calendar date for follow-up precise statistical method for determining its point estimate, confidence interval (CI), and p value. a covariate-adjusted analysis
Covariate Adjustment Unlike normal regression models, covariate adjustment for binary or time-to-event outcomes using logistic or proportional hazard models does not increase the precision of estimates (CI width changes little); rather, point estimates, (e.g., odds ratio, HR) tend to move further away from the null. Thus, there is a slight gain in statistical power in adjusting for covariates, but only if the chosen covariates are related to patient prognosis..
보정의 원칙 1. On the basis of prior knowledge, one should specify clearly a limited number of covariates known (or thought) to have a substantial bearing on patient prognosis. Make sure such covariates are accurately recorded at baseline on all patients. 2. Document, in a pre-specified SAP, the precise covariate-adjusted model to be fitted. For instance, a quantitative covariate, such as age, can be either fitted as a linear covariate or in several categories (age groups). Such a choice needs to be made in advance. 3. Post-hoc variable selection (e.g., adding covariates unbalanced at baseline, dropping nonsignificant predictors, or adding in new significant predictors after database lock) should be avoided in the primary analysis because suspicions may arise that such choices might have been made to enhance the treatment effect. 4. Both unadjusted and covariate-adjusted analyses should be presented, with pre-specification as to which is the primary analysis. If the choice of covariates is confidently supported by experience of what influences prognosis, then it makes sense to have the covariate-adjusted analysis as primary.
Subgroup analysis Subgroup analysis 에서 p-value의 의미 Subgroup analysis 에서 Interaction 값의 제시 Subgroup하는 이유: 전체 broad spectrum에서 consistency 했다 Subgroup analysis 에서 p-value의 의미 Subgroup analysis 에서 Interaction 값의 제시 Subgroup하는 이유:
Assessing individual benefits and risks
Clinical question에 따른 Study design Clinical question types Study design Prevalence C/S studies Incidence Cohort studies Etiology Cohort studies, case-control studies Diagnostic accuracy RCTs(rare), case series, C/S studies Prognosis RCTs(rare), Cohort studies Therapy RCTs Screening RCTs, Case-control studies Harm RCTs, Cohort studies, Case-control studies Prevention
Prevalence study Park, J.H., et al., A nationwide survey on the prevalence and risk factors of late life depression in South Korea, J. Affect. Disord. (2012), doi:10.1016/j.jad.2011.12.038
Incidence study METHODS: The authors used National Health Insurance claims data to establish a nationwide population cohort of 7852 patients with pSS from 2000 to 2008 who did not have cancer prior to diagnosis of pSS. Incidence and standardised incidence ratios (SIRs) for cancer in various sites were calculated. 쇼그랜 증후군 환자에 대한 암 발생률에 대한 연구로 cohort study로 가능하다. Claim data를 이용하여 쇼그랜 증후군 환자를 찾고 f/u 시행하였다. 표준화된 발생률을 산출하여 일반환자에 비해 쇼그랜 증후군이 있는 환자에서 암이 얼마나 발생하는지 확인하였다. Weng MY et al. Ann Rheum Dis. 2012;71(4):524-7. Incidence of cancer in a nationwide population cohort of 7852 patients with primary Sjogren's syndrome in Taiwan.
Etiology related study Gastric cancer의 원인을 알아보고자 하는 연구로, 병의 원인, 즉 위험인자를 찾고자 하므로, prospective Cohort study를 통해 데이터를 얻음. 일본 1246명 환자. 헬리코박터 파일로리에 감염된 환자들만을 대상으로 위암발생에 영향을 주는 원인 인자를 찾고자 하였음. RR를 산출함. Multi분석을 하지 않음. N수가 너무 적음 Uemura N et al, Engl J Med 2001; 345:784-9. Helicobacter pylori infection and the development of gastric cancer.
Etiology related study 노인 우울증의 원인을 알아보고자 하는 연구 c/s 로 이루어짐 OR 산출함. Park, J.H., et al., A nationwide survey on the prevalence and risk factors of late life depression in South Korea, J. Affect. Disord. 2012;138 :34-40.
Shape of association Continuous association U(J)-shaped association Threshold effect Interaction
OR과 RR차이가 있음을 보여주는 예제
Clinical question에 따른 Study design Clinical question types Study design Prevalence C/S studies Incidence Cohort studies Etiology Cohort studies, case-control studies Diagnostic accuracy RCTs(rare), case series, C/S studies Prognosis RCTs(rare), Cohort studies Therapy RCTs Screening RCTs, Case-control studies Harm RCTs, Cohort studies, Case-control studies Prevention
Diagnosis related study (Validity) Sensitivity = a / (a+c) Specificity = d / (b+d) Positive Predictive Value = a / (a+b) Negative Predictive Value = d / (c+d) Accuracy = (a+d) / n Likelihood Ratio LR+ = Sensitivity / (1-Specificity) LR- = (1-Sensitivity) / Specificity 검사에서 이상소견을 보인 사람들은 그렇지 않은 사람보다 실제로 질병이 있을 가능성이 높다는 것을 의미
Diagnosis related study (Validity) Dz+ Dz- total + 45 6 51 - 1 73 74 46 79 125 PET/CT Barton F. et al. Radiology 2005;235:580-6. , Head and Neck Malignancy: Is PET/CT More Accurate than PET or CT Alone?
Diagnosis related study (Validity) Figure 1. ROC curve generated for presence of malignancy in a lesion (n 125) demonstrates improved accuracy of PET/CT over that of PET or CT alone. AUC 산출
Diagnosis related study LROC: 위치가 틀린 경우 FROC: 병변이 여러 개 인 경우. 병변이 몇 개 인지 알려주지 않음. 임상적 상황과 매우 유사 AFROC:
Kappa (Reliability) 두 가지 범주형 변수 사이의 일치 정도를 나타내는 지표. 우연에 의한 일치 정도를 보정한 지표로 널리 사용 Kappa=0.807
Bland-Altman plot (Reliability) 두 가지 연속형 변수 (측정방법) 의 일치 정도를 비교하기 위한 방 법 두 방법의 평균(x축)과 두 방법에서 구해진 값의 차이(y축)에 대해 추정된 값과 실제 값의 차이를 그래프로 표현 탐색적으로 평가하는 방법 Bland and Altman, Lancet 1986 i:307-310
ICC (Intraclass correlation coefficient) 연속형 변수 신뢰도 평가방법 Cluster 되어있는 데이터들의 연관성을 측정 관찰자-내, 관찰자-간 신뢰도 검정 ex) CT에서 50개 tumor에 대한 longest diameter를 3명의 연구자가 측정 Vb = variance between individuals Vt = total variance Ve = unwanted variance (error) 연구대상자들이 group으로 구성될 수 있고, within group의 구성원은 between group구성보다 더 유사하다. Cluster를 구성하고 있다. 2이상의 관찰자가 있을때 혹은 2번이상의 obervation이 있을때 Kappa처럼 0-1까지의 값을 가짐 1이라고 하면 전체 분산이 between subjects사이에 분산과 일치한다. Observer사이에 분산은 없다는 것임. 오분류가 없다는 것을 의미함. ICC(Intraclass Correlation Coefficient) 신뢰도 0.80-1.00 매우 신뢰 0.60-0.79 증등도 신뢰 0.59 이하 신뢰할 수 없음
Diagnosis related study Peason의 correlation 분석으로 차이를 구별할 수 없음. 평균의 차이가 나지 않음. Correlation coefficient CCC(Concordance correlation coefficient)
감사합니다!