728x90

전체 글 32

[비율검정] 두 그룹의 비율 차를 이용한 검정

오늘은 두 그룹의 비율 차이 검정에 대해 정리하고자 한다. 분석코드 및 대부분의 내용은 'Machine Learning at Work 머신러닝 실무 프로젝트' 책을 참고하였습니다. 두 개의 광고 서비스를 통해 각각 유입된 사용자들의 이용률을 아래와 같이 얻었다고 하자. 광고종류 유입 사용자 수 지속 이용 사용자 수 지속 이용 전환율 A 205 40 19.5% B 290 62 21.4% 위의 예시는 '지속이용자' 와 '이탈자' 두 범주에 대한 비율을 보이고 있기 때문에 이항분포를 따르지만 유입 사용자수가 어느정도로 크기 때문에 정규분포를 따른다고 보고 지속 이용 전환율의 분포를 시각화해보자. (위 내용은 중심극한 정리 참고!!) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1..

Statistics 2019.04.01

[R과 Python 비교] 범주형변수 처리(OneHotEncoding)

데이터는 크게 수치형 데이터와 범주형 데이터로 나뉜다. 오늘은 데이터가 범주형일 경우 분석을 위해 처리해야 하는 방법에 대해 정리해보도록 한다. 볌주형 데이터의 경우 일반적으로 회귀분석과 같은 연속형 변수를 다루는 분석기법에서는 사용할 수 없기 때문에 형태를 변환하여 가능하도록 만들어 줘야한다. R에서 제공하는 iris 데이터로 예를 들어보자. 여기서 Species 변수를 범주형 데이터라고 하고, 분석을 위해 'setosa', 'versicolor', 'virginica'을 수치형 데이터로 변환하여 처리할 것이다. 이렇게 수치로 변환한 데이터를 더미변수라고 한다. R과 Python을 통해 범주형 변수를 수치형 데이터로 변환하는 방법은 아래와 같다. R 코드 1. transform 함수 n개의 범주가 있을..

728x90
loading