728x90

AI모델/AI기술방법론 24

배치처리 및 실시간처리 시스템 구성 방법

오늘은 모델 학습 및 예측 과정을 시스템에 통합하는 방식에 대해 정리해보았습니다. (※ 'Machine Learning at Work 머신러닝 실무 프로젝트' 책을 참고하였습니다.) 시스템 통합 방식은 학습이 일어나는 시점에 따라 배치처리 시 이뤄지는 방식과 실시간으로 이뤄지는 방식으로 나뉠 수 있습니다. 배치처리와 배치학습은 다른 의미이지만 일반적으로 머신러닝에서 배치라고 하면 대개 배치학습을 말합니다. 그렇다면 처리방법에 따라 학습하는 방법의 차이가 있는지 알아보도록 하겠습니다. 1. 배치 처리로 일괄 학습(배치학습, Batch learning) 2. 배치 처리로 순차 학습(실시간학습, Online learning) 3. 실시간 처리로 일괄 학습 4. 실시간 처리로 순차 학습 위의 조합에서 실제 가능..

window10 아나콘다 가상환경에서 OpenAI gym 설치하기

오늘은 OpenAI gym을 아나콘다에서 이용하는 방법에 대해 정리하였습니다. window에서 OpenAI gym 예제를 돌려보기에 어려움이 많아 가장 쉬운 아나콘다를 이용하는 방법으로 사용하려고 합니다. 1. 아나콘다에서 가상환경 생성하기 Anaconda Prompt를 실행하고 conda create --name openai python=3.6 입력하고 설치여부를 물어보면 y 입력합니다. openai라는 명으로 가상환경을 만들고 python 3.6을 설치하였습니다. (저는 기존에 openai라는 가상환경이 있어서 삭제하고 다시 생성해주었습니다.) 2. 가상환경 활성화 시켜주기 activate openai 명령으로 가상환경을 활성화 시키면 (base)에서 (openai)로 바뀐걸 볼 수 있습니다. 3. ..

[비율검정] 두 그룹의 비율 차를 이용한 검정

오늘은 두 그룹의 비율 차이 검정에 대해 정리하고자 한다. 분석코드 및 대부분의 내용은 'Machine Learning at Work 머신러닝 실무 프로젝트' 책을 참고하였습니다. 두 개의 광고 서비스를 통해 각각 유입된 사용자들의 이용률을 아래와 같이 얻었다고 하자. 광고종류 유입 사용자 수 지속 이용 사용자 수 지속 이용 전환율 A 205 40 19.5% B 290 62 21.4% 위의 예시는 '지속이용자' 와 '이탈자' 두 범주에 대한 비율을 보이고 있기 때문에 이항분포를 따르지만 유입 사용자수가 어느정도로 크기 때문에 정규분포를 따른다고 보고 지속 이용 전환율의 분포를 시각화해보자. (위 내용은 중심극한 정리 참고!!) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 1..

[R과 Python 비교] 범주형변수 처리(OneHotEncoding)

데이터는 크게 수치형 데이터와 범주형 데이터로 나뉜다. 오늘은 데이터가 범주형일 경우 분석을 위해 처리해야 하는 방법에 대해 정리해보도록 한다. 볌주형 데이터의 경우 일반적으로 회귀분석과 같은 연속형 변수를 다루는 분석기법에서는 사용할 수 없기 때문에 형태를 변환하여 가능하도록 만들어 줘야한다. R에서 제공하는 iris 데이터로 예를 들어보자. 여기서 Species 변수를 범주형 데이터라고 하고, 분석을 위해 'setosa', 'versicolor', 'virginica'을 수치형 데이터로 변환하여 처리할 것이다. 이렇게 수치로 변환한 데이터를 더미변수라고 한다. R과 Python을 통해 범주형 변수를 수치형 데이터로 변환하는 방법은 아래와 같다. R 코드 1. transform 함수 n개의 범주가 있을..

728x90
loading