🥐데이터분석 16

[토픽모델링] 논문 2개 리뷰; 스마트TV & OTT 온라인 리뷰 데이터 관련

배민 앱 리뷰 데이터 크롤링 과정에서 계속 크롬 메모리 부족으로 인한 문제가 발생하고 있습니다 ㅠㅠ..😮‍💨 이것저것 시도해보고 있지만 잘 안되는 중.. 그래도 일단 토픽 모델링 관련 논문 2개 읽은 내용을 분석 방법론과 해석 측면에 초점을 맞춰 요약해봤습니다 👍 특히 아래 첫번째 논문의 경우 얼마전 업로드 한 책 [데이터로 경험을 디자인하라]의 저자인 차경진 교수님의 제자분이 쓰신 석사 논문이라 가져와봤습니당! 📃스마트TV의 사용자 경험 차원에 대한 탐색적 연구 : 토픽모델링을 중심으로(김영범, 2022) 목적 : 스마트 TV 제품 관련 온라인 리뷰 데이터 분석을 통해 스마트 TV 사용자 경험 차원을 기존 선행연구들과 차별화 된 연구 프레임으로 도출하고자 함. 연구 방법 총 세 가지(LDA/ Dynam..

🥐데이터분석 2022.06.14

[배민 앱 VOC분석] 리뷰 군집화/클러스터링(예행연습)

오늘은 배민 앱 VOC 데이터 분석을 통해 CAM(Customer Action Map)을 만들고, 이를 바탕으로 제품 개선안을 도출하는 과정의 첫 단계! 구글 앱 스토어에서 크롤링 한 데이터 중 일부를 활용해 리뷰 데이터를 군집화 해보겠습니다 :) ​ [진행 순서] ✅ 구글 앱 스토어에서 배민 리뷰 데이터 크롤링하기 ✅ 토큰화(Tokenization)하고 명사만 추출하기 ✅ 벡터화(Vectorization)하기 ✅ 클러스터링을 통해 유사한 데이터끼리 묶기 ​ 구글 앱 스토어에서 배민 리뷰 데이터 크롤링하기 참고) https://heytech.tistory.com/293 Heytech 블로그에 있는 웹 크롤러 코드를 활용해 우선 전체 리뷰 데이터 중 1만 개 정도에 대해서만 크롤링을 진행했습니다. (리뷰가..

🥐데이터분석 2022.06.08

[토픽 모델링] LDA(Latent Dirichlet Allocation) 개념 설명👀

배민 VOC 분석을 위한 토픽 모델링 공부 진행 중입니다:) 토픽 모델링 기법 중 가장 유명하고 많이 쓰이는 LDA에 관해 알아보겠습니다. *본 노트는 고려대학교 산업경영공학부 DSMA 연구실의 LDA 관련 유튜브 영상을 참고했음을 밝힙니다. LDA 문서 생성 프로세스(Document Generation Process) 지난 포스트에서 토픽 모델링은 문서 생성 프로세스에 대한 가정이 존재한다고 말씀드렸습니다. LDA의 문서 생성 프로세스를 요약하자면 다음과 같습니다. ​ 모든 문서들(Documents)은 여러 개의 토픽들을 가지고 있습니다. 각 토픽은 단어들의 분포입니다. 예를 들어, 아래 노란색 토픽의 경우 gene, dna, genetic 등의 단어들로 이루어져 있고, 각 단어마다 발생빈도는 다릅니다..

🥐데이터분석 2022.06.07

[토픽 모델링] 기본 개념 이해하기 😎

해보고 싶은 분석이 생겼습니다! 사실 우아한 형제들 면접 준비하면서 해볼까 고민했던건데.. 배민의 경우 구글 앱 스토어 리뷰들이 총 20만개 정도 있는데 대충 감으로 봤을 때는 1. 배달 관련 2. 어플 사용성 관련 3. 할인 관련 이 정도인 것 같았습니다. 그런데 보다 보니 조금 더 체계적으로 어떤 종류의 리뷰들이 있는지 알아보고 싶어졌습니다 :) ​ 🤖배달의 민족 최근 반 년 간 구글 앱스토어 voc 분석 ​ 1. 문제 : voc는 고객들의 니즈를 비교적 직접적으로 알 수 있는 중요한 창구임. 하지만 구글 앱스토어 voc 개수가 많아서 일일이 분류하기가 힘듦. 2. 솔루션 : 위와 같은 상황에서 자주 활용되는 텍스트 마이닝 기법 중 하나인 토픽 모델링을 활용해 리뷰의 주요 토픽들을 확인 3. 기대효과..

🥐데이터분석 2022.06.06

다중회귀분석 R-squared 가 낮아도(0.2, 0.3) 괜찮을까?

현재 두 가지 분석프로젝트를 진행하고 있는데, 그 중 한 프로젝트 미팅을 진행하던 중 아래와 같은 질문들을 받게 되었다. 해당 프로젝트의 초반 단계에 관해 간략히 설명하자면 다중회귀분석 및 기타 변수 선택 방법들을 이용하여 택배 중고거래와 유의미한 관계가 있는 변수를 선택한 후, 선택된 변수들을 이용하여 클러스터링을 진행하여 최적 입지 선정을 위한 1차 입지(자치구)를 선정한다. 서울 자치구 25개로 다중회귀분석을 진행하였는데, 샘플사이즈가 작은 것 같다, 그래도 괜찮은가? 보통 독립변수 1개 당 표본 5-10개 정도가 경험적으로(Rules of Thumb) 괜찮은 정도로 이야기되지만 학자들마다 의견이 분분하다. 실제 연구를 진행할 때는 연구자가 효과크기(effect size) 및 유의수준을 고려한 통계..

🥐데이터분석 2021.09.14

분류모델 성능평가 지표 : Confusion Matrix

Confusion Matrix binary형태(0 혹은 1)의 타겟변수 예측모델 평가지표로는 Accuracy, F1 score 등이 있는데, 이 지표들의 근간은 confusion matrix이다. 아래 코드 중 confusion_matrix(y_true = y_test, y_pred=pred) 을 하면 예측값(0 혹은 1)과 실제값(0 혹은 1)을 array 형태로 돌려주는데, 이걸 confusion matrix라고 한다. from sklearn.metrics import confusion_matrix, accuracy_score X_test= test_x_rfm_nor.iloc[:,1:4] y_test= test_x_rfm_nor['Churn'] xgb_final = XGBClassifi..

🥐데이터분석 2021.09.11

중심극한정리(Central Limit Theorem), 신뢰구간(Confidence Interval)

통계의 꽃이라고도 불리는 중심극한정리, 정신없이 공부를 해가다보면 이전에 배웠던 내용들을 계속 까먹게되고, 결국 누군가 '중심극한정리가 뭐야?', '신뢰구간이 뭐야?'라고 내게 물을 때 자신있게 대답할 수가 없게 된다. 그래서 잊지 않으려고 나만의 언어로 중심극한정리와 신뢰구간을 정리해보았다. 중심극한정리 "표본(샘플) 크기가 충분히 크다면(일반적으로 n >= 30) 표본평균은 모평균을 평균으로 하고, 모분산/n을 분산으로 하는 정규분포에 근사한다. " 1000번 가량 표본을 추출하는 상황을 가정해보자. 이 때 한 번 추출하는 표본의 수가 n=3, n=50, n=100 이런 식으로 커지면 커질수록 정규분포에 더 가깝게 수렴하게 된다. (한 번 추출하는 표본 수가 작더라도 표본을 추출하는 횟수가 커지면 커..

🥐데이터분석 2021.09.10

Bias-Variance Trade off(편향-분산 트레이드오프/ 딜레마)란?

머신러닝을 공부하다보면 아래와 같은 그래프를 자주 보게 된다. 이 그래프는 모델의 복잡성에 따라 편향(bias)와 분산(variance), 그리고 이를 합친 전체 에러가 어떻게 변화하는지 보여주고 있다. 그래프를 해석해보자면 모델의 복잡성이 증가할수록 편항의 제곱은 지수적으로 감소하고, 분산은 반대로 증가하며, 전체 에러는 어느 시점까지는 감소하다가 다시 특정 포인트를 기점으로 증가하게 된다. 우리가 목표로 하는 최적화된 모델은 이 전체 에러가 최소화되는 지점의 모델이다. 머신러닝 모델을 훈련시킬 때는 'training error'와 'test error' 를 측정한다. (여기서는 일단 cross-validation 관련 사항은 제외한다.) training error란 훈련데이터를 이용해 모델을 피팅한 ..

🥐데이터분석 2021.09.09

Hierarchical Bayesian model (베이지안 계층모형)

1. 정의 베이지안 계층모형은 계층적 형태로 구성된 통계적 모델로, 베이지안 방법론을 이용해 사후분포의 파라미터를 추정한다. 마케팅쪽에서는 주로 하나의 모델은 within-unit 분석이고, 다른 모델은 across-unit 분석을 진행해야 할 경우 사용한다. 여기서 within-unit 분석이란 예를 들어 고객의 시간에 따른 행동데이터에 관한 모델이고, across-unit 분석은 고객 개개인의 이질성, 다양성에 관한 분석이라 할 수 있다.즉, Pareto/NBD 모델을 예로 들어 설명하자면 고객이 살아있는 동안 구매행동은 평균이 lambda인 Poisson process를 따르는데, lambda는 다시 gamma 분포를 따른다.(고객들 간의 이질성) 베이지안 계층모형의 모수추정에는 MCMC가 자주 함..

🥐데이터분석 2021.08.19

MCMC를 이용한 베이지언 추정(Bayesian Estimation)

연관 포스팅 : 베이즈 통계학 기초 MCMC 샘플링 1. 목표 MCMC 샘플링을 이용한 분포의 파라미터(모수) 추정. 예시 : 평균이 10이고, 표준편차가 3인 정규분포를 모집단으로 두고, 모집단에서 1,000개의 샘플을 뽑은 표본 집단이 있다고 하자. 즉, 우리의 목표는 1,000개의 샘플만을 이용해 30,000개의 전체 모집단의 평균(즉, 정규분포의 모수 중 하나)를 더 잘 추정해보고자 함. 아래 그림과 같이 만약 1,000개의 데이터가 주어졌을 때 이 데이터들이 어떤 분포로부터 나왔다고 말할 수 있는지 알아보는 것! 여기서는 평균만 추정할 것임. MLE(Maximum Likelihood Estimation)과 다른 점은 MLE는 모든 x에 대해 가능도(likelihood) 값이 점검되었다면, MCM..

🥐데이터분석 2021.08.19