728x90

추천시스템 2

TF-IDF(Term Frequency - Inverse Document Frequency)

Fastcampus 추천시스템 구현하는 방법을 공부하면서 컨텐츠기반 추천알고리즘의 대표적인 TF-IDF(Term Frequency - Inverse Document Frequency) 추천알고리즘에 대해 정리해보도록 하겠습니다. TF-IDF는 단어의 빈도와 문서의 빈도에 특정 식을 취하여 DTM(문서 단어 행렬) 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법입니다. 우선 DTM을 만든 후, TF-IDF 가중치를 부여합니다. 1. Vector Representation m개의 review 문서가 있다고 가정 review 문서 전체에 등장하는 단어의 수는 n개 각 항목은 해당 단어가 review에 등장하는 빈도수를 의미 (Review 1, Word0) = 2 → Review 1에 Word 0은 2번 ..

나이브 베이즈(Naive Bayes)

Fastcampus 추천시스템 구현하는 방법을 공부하면서 컨텐츠기반 추천알고리즘의 대표적인 나이브 베이즈 추천알고리즘에 대해 정리해보도록 하겠습니다. 1. 시작하기 전에 1) 확률(Probability) 사건(Event) A가 발생할 가능성 $P(A) = \frac{사건A의 경우의 수}{전체경우의수}$ 2) 조건부 확률(Cpnditional Probability) ① 사건B가 발생했을 때, 사건A가 발생할 확률 $P(A|B) = \frac{P(A\cap B)}{P(B)}$ ② 사건A가 발생했을 때, 사건B가 발생할 확률 $P(B|A) = \frac{P(A\cap B)}{P(A)}$ ③ $P(A\cap B) = P(A|B)P(B) = P(B|A)P(A)$ 사건A와 사건B가 독립이면, $P(A\cap B) ..

728x90
loading