데이터분석 4

[토픽 모델링] LDA(Latent Dirichlet Allocation) 개념 설명👀

배민 VOC 분석을 위한 토픽 모델링 공부 진행 중입니다:) 토픽 모델링 기법 중 가장 유명하고 많이 쓰이는 LDA에 관해 알아보겠습니다. *본 노트는 고려대학교 산업경영공학부 DSMA 연구실의 LDA 관련 유튜브 영상을 참고했음을 밝힙니다. LDA 문서 생성 프로세스(Document Generation Process) 지난 포스트에서 토픽 모델링은 문서 생성 프로세스에 대한 가정이 존재한다고 말씀드렸습니다. LDA의 문서 생성 프로세스를 요약하자면 다음과 같습니다. ​ 모든 문서들(Documents)은 여러 개의 토픽들을 가지고 있습니다. 각 토픽은 단어들의 분포입니다. 예를 들어, 아래 노란색 토픽의 경우 gene, dna, genetic 등의 단어들로 이루어져 있고, 각 단어마다 발생빈도는 다릅니다..

🥐데이터분석 2022.06.07

[토픽 모델링] 기본 개념 이해하기 😎

해보고 싶은 분석이 생겼습니다! 사실 우아한 형제들 면접 준비하면서 해볼까 고민했던건데.. 배민의 경우 구글 앱 스토어 리뷰들이 총 20만개 정도 있는데 대충 감으로 봤을 때는 1. 배달 관련 2. 어플 사용성 관련 3. 할인 관련 이 정도인 것 같았습니다. 그런데 보다 보니 조금 더 체계적으로 어떤 종류의 리뷰들이 있는지 알아보고 싶어졌습니다 :) ​ 🤖배달의 민족 최근 반 년 간 구글 앱스토어 voc 분석 ​ 1. 문제 : voc는 고객들의 니즈를 비교적 직접적으로 알 수 있는 중요한 창구임. 하지만 구글 앱스토어 voc 개수가 많아서 일일이 분류하기가 힘듦. 2. 솔루션 : 위와 같은 상황에서 자주 활용되는 텍스트 마이닝 기법 중 하나인 토픽 모델링을 활용해 리뷰의 주요 토픽들을 확인 3. 기대효과..

🥐데이터분석 2022.06.06

[모빌리티] 카카오T가 데이터로 주차문제를 해결하는 방법

2021 카카오 모빌리티 리포트를 읽으면서 가장 인상깊었던 부분은 당면한 문제를 데이터 분석을 통해 해결해 나가는 과정이었다. 카카오T는 주차장 이용의 효율성을 저해하는 여러 문제들의 현상과 원인을 깔끔하게 정의하고, 데이터 분석 기술을 활용해 최적의 솔루션을 도출하며, 변화로 인해 만들어진 결과도 데이터로 명확하게 제시한다. 리포트에 나온 여러 사례 중 '주차장 출입구 분산 안내를 통한 교통량 분산'과 '에버랜드 만차예측 서비스을 통한 입차 시간 분산'에 대해 살펴보자. 주차장 출입구 분산 안내를 통한 교통량 분산 문제 발견 | 아래 그림을 보면 2020년 1월에서 9월까지는 모든 자동차가 코엑스의 '동문 입구'로 출입했다. 카카오내비가 코엑스를 검색하면 '동문 입구'로만 안내해주었기 때문이다. 하나의..

🍞산업 공부 2022.05.23

[시계열] ARIMA 모델

✅ 시계열 모델(Time Series Model) 구성요소 추세(Trend) : 장기적으로 나타나는 변동 패턴. 계절성(Seasonal) : 주, 월, 분기, 반기 등의 주기로 나타나는 패턴. 주기(Cyclic) : 최소 2년 단위로 나타나는 고정된 기간이 아닌 장기적인 변동. 랜덤요소(Random Walk/Residual) : 위 세 가지의 변동으로 설명되지 않는 부분. 백색잡음(White noise). ✅ 시계열 모델 분석 기법 평활법(Smoothing Method) 과거 데이터의 불규칙변동을 제거하여 부드러운 형태로 만드는 것. 크게 이동평균법(Moving Average)과 지수평활법(Exponential Smoothing)으로 나뉨. 이동평균법 : 과거자료의 평균을 미래 예측치로 사용. 지수평활법..

🥐데이터분석 2021.07.25