본문 바로가기
카테고리 없음

통계

by Myungs 2023. 9. 22.

1. 통계적 가설검정
 - 1종 오류 :
 - 2종 오류 : 

2. EDA 
 - 개념 : 관찰된 현상 그대로 통계모형을 만드는 대상데이터 구조에 대한 탐색적 분석 기법
 - 목적 : 통계 탐색, 데이터 특성 관계 가설을 도출
 - 프로세스 : RawData 수집 -> Pattern -> 가설 도출
 - 구성요소 : 저항성, 잔차해석, 자료의 재표현
 - 데이터 행렬 : 공분산 행렬
 - 기법 : 히스토그램, 줄기잎그림, 상자수염그림, 산점도
 
3. CDA
 - 개념 : 모형의 검증을 위하여 데이터를 수집하고 재현성과 유의성을 평가하는 통계적 추론 기법
 - 목적 : 통계 판당, 가설 검정, P-Value 기준 수용/기각 결정
 - 프로세스 : Define -> Measure -> Analyze -> Improve -> Control
 - 구성요소 : 중심극한 정리, P-Value
 - 데이터 행렬 : 상관관계 행렬
 - 기법 : T/F Test, 분산분석(AVOVA), 상관분석, 회귀분석
 - EDA/CAD/PDA와 관계 : EDA로 데이터 수집하여 모형을 정의하고 CDA를 통해 재현성 증명, PDA로 최적화 개선

4. 귀무가설(Ho) : 

5. 대립가설(H1) :

6. 통계적 가설 검정
 - 개념 : 모집단의 분포의 모양이나 모수 등에 대한 가설을 세우고, 모집단에서 추출한 표본에 기초하여 가설의 채택이나 기각을 결정하는 통계적 기법
 - 가설 검정의 방법(대립가설 검정 유형): 양측검정, 왼쪽단측검정, 오른쪽단측검정
 - 절차 : 통계적 가설검정 > 유의수준결정 > 검정통계량 설정 > 기각역 설정 > 검정통계량 계산 > 결과 해석
 - 구성요소 : 귀무가설, 대립가설, 유의수준, p-Value, 검정통계량, 임계치, 기각역, 채택역
 - 오류 : 1종오류, 2종오류

7. 가트너 데이터 분석 성숙도 모델
 - 설명적 분석(무엇이 발생?), 진단적 분석(원인이 무엇?), 예측적 분석(어떻게 될것인가?), 처방적 분석(무섯을 할 것인가?)
 
8. 데이터 분석/처리를 위한 5단계 절차
 - 문제 정의 > 데이터 수집 > 데이터 전처리 > 데이터 모델리 > 탐색 및 시각화

9. 통계적 추론(통계적 가설 검정과 동일 레벨, 상위 레벨은 통계적 추론)
 - 개념 : 불확실 상황에서 데이터를 이용하여 모집단에 대한 일반적 추론을 도출하는 귀납적 추론 방법
 - 유형
  1) 점추정 : 모집단에서 표본을 추출하고 측정한 결과값을 이용하여 모집단의 특성을 단일값으로 추정하는 방법
  * 점 추정 방법 : 최대우도법, 적률법
  * 점 추정량 조건 : 불편성, 효율성, 일치성
  2) 구간추정 : 모집단에서 표본을 추출하고 측정한 결과의 분포를 이용하여 모집단의 특성이 포함되는 예상되는 구간을 추정하는 방법
  * 구성요소 : 신뢰 구간, 신뢰 수준, 오차율
  * 신뢰구간 추정방법(모평균) : Z분포, T분포 이용 오차 계산

10. 가설검정의 분류 체계
 - 검정 대상이 평균일 경우 : 모집단 2개 T-Test, 모집단이 3이상 분산분석(ANOVA)
 - 검정 대상이 분산일 경우 : 모집단 1개 카이제곱검정, 모집단이 2개 F검정

11. T-Test
 - T-Test : 차이 검정을 위한 T-Test는 서로 록립된 두집단간의 평균의 차이를 확인하는 검정 방법
 - Paired T-Test : 하나의 집단 내에서 동일한 대상을 두 번 반복 측정하여 전/후 평균 차이 검정 방법
 - 차이 비교 : 2집단 평균 비교
 - 검정 통계량 : T검정 통계
 - 가설 설정 : 귀무가설-두집단의 평균 차이 없음, 대립가설-두집단의 평균 차이 있음
 
12. ANOVA 
 - 개념 : 분산분석은 서로 독립된 집단이 셋 이상인 경우 집단간의 평균의 차이를 검정하는 방법
 - 차이 비교 : 3집단 이상 평균 비교
 - 검정 통계량 : F검정 통계
 - 가설 검정 : 귀무가설-셋이상의 집단 평균 차이 없음, 대립가설 -적어도 하나 이상의 집단은 평균 차이 존재

13. 통계분석
 - 정의 : 표본을 통해 의미 있는 자료를 추출하고, 이를 기반으로 의사결정, 연관성 파악등의 인사이트 도출로 이어지도록 하는 분석 기법
 - 척도 : 질적 척도(명목, 서열), 양적 척도(등간, 비율)
 - 유형 : 독립변수, 종속변수 유형에 따라 나뉨
  * 명목형 - 명목형 > 카이제곱 검정
  * 명목형 - 연속형 > T검정, ANOVA
  * 연속형 - 연속형 > 회귀분석, 상관분석

14. 기술통계 
 - 기술 통계 : 자료를 수집하고 정리하여 표, 그래프 등의 수치적인 표현이나 데이터 시각화 하는 통계 기법(평균, 표준편차, 분산, 빈도 등)
 - 종류 : 일원적, 이원적 통계
 - 특징 : 모집단 전체 대상
 - 사용 기술 : 대푯값(평균, 최빈도), 분산(범위, 표준편차)

15. 추론 통계  
 - 추론 통계 : 기술 통계 기반 산출된 표본의 정보로 모집단의 특성을 추측 및 검증하는 통계 기법(T검정, ANOVA등)
 - 종류 : 모수적, 비모수적 통계
 - 특징 : 표본 통해 모집단 특성 유추
 - 사용 기술 : 추정(점 추정, 구간 추정), 검정(가설 검정, 차이 검정)
 
14. 표본 추출 방법
 - 확률적 추출 방법 : 단순임의 추출법, 층화추출법, 계통추출법, 집락추출법
 - 비확률적 추출 방법 : 유의추출법(포커스 그룹) 판단추출법, 할당추출법, 편의추출법, 눈덩이추출법

15. 형태에 따른 데이터 구분
 - 범주형 자료 : 명목형 자료(성별, 혈액형), 순서형 자료(우선순위, 등수, 학점, 선호도)
 - 수치형 자료 : 이산형 자료(셀수 있는 자료, 멤버의 수), 연속형 자료(신장, 체중)

16. 왜도/첨도
 - 왜도 : 중심위치로부터 분포가 기울어진 방향과 정도를 나타내는 척도
 - 첨도 : 자료의 분포가 중심 경향값을 중심으로 집중적으로 분포되어 있는 정도(분포의 뾰족한 정보)
17. Percentile
 - 개념 : 일정한 범위에서 벗어난 데이터 값으로 특이하게 작거나 큰 자료 값
 - 유형 : Mile Outlier - Inner fence를 넘는 관측치, Extream Outlier - Outer fence를 넘는 관측치

18. 카이제곱 검정
 - 개념 : 범주형 자료에서 예측빈도와 관측빈도에 대한 동질성 여부 및 상관성을 통계적으로 유의한지 결정하는 검정
 - 특징 : 교차 분석, 범주형 자료 분석, 카이제곱분포 기반
 - 절차 : 기대 빈도 산출 > X제곱 검정량 산출 > 자유도 산출 > P-Value 계산
 - 유형 : 
  * 적합도 검정 : 한 범주형 변수의 각 그룹별 비율이 특정 비율과 같은지 검정
  * 동질성 검정 : 각 집단이 서로 유사한 성향을 갖는지 분석하는 검정
  * 독립성 검정 : 두 범주형 변수가 서로 독립인지 검정
 
19. 베이즈 정리 
 - 개념 : 두 확률변수의 사전확률과 사후확률간의 관계를 나타내는 확률 이론
 - 구성요소
  * 사전확률 : 관측자가 이미 알고 있는 사건의 확률
  * 우도 : 이미 알고 있는 사건이 발생했다는 조건하에 다른 사건이 발생할 확률
  * 사후확률 : 사전확률과 우도를 통해 알게 되는 조건부 확률

20. CLT(중심극한정리)
 - 개념 : 임의의 모집단에서 크기 n의 표본 K개를 복원 추출을 할 때 n과 K가 충분히 크다면 각 표본의 평균 분포는 정규 분포로 수렴한다는 이론
 - 수식 : 중심극한정리, 정규분포

21. 데이터 분석 방법론
 - 일반적 데이터 분석 방법론 절차 
  1) 분석 기획(SOW, WBS) 
  2) 데이터 준비(데이터 정의서, 정합성 보고서)
  3) 데이터 분석(Data Set, 모델링 결과서)
  4) 시스템 구현(시스템 설계서, Manual)
  5) 평가 및 전개(모델발전 계획서, 프로젝트 최종보고서)
 - 주요 데이터 분석 방법론
  * SEMMA방법론 : Sample, Explore, Modify, Model, Assess
  * KDD 분석 방법론 : 데이터 셋 선택, 데이터 전처리, 데이터 변환, 데이터 마이닝, 결과 평가
  * CRISP-DM 분석 방법론 : 업무이행, 데이터이해, 데이터준비, 모델링, 평가, 전개

22. 성능 평가 방법
 - 성능 평가 유형은 예측모델과 분류모델로 분류되어지나, 주로 오분류 추정치/그래프 활용 ROC등의 분류 모형 성능을 측정하는 이익도표가 주로 사용
 - 분류 모델 : 오분류에 대한 추정치(F1 Score, Precision/Recall), ROC Curve(FPR, TRP, AUROC), Lift Chart