배민 앱 리뷰 데이터 크롤링 과정에서 계속 크롬 메모리 부족으로 인한 문제가 발생하고 있습니다 ㅠㅠ..😮💨
이것저것 시도해보고 있지만 잘 안되는 중..
그래도 일단 토픽 모델링 관련 논문 2개 읽은 내용을 분석 방법론과 해석 측면에 초점을 맞춰 요약해봤습니다 👍
특히 아래 첫번째 논문의 경우 얼마전 업로드 한 책 [데이터로 경험을 디자인하라]의 저자인 차경진 교수님의 제자분이 쓰신 석사 논문이라 가져와봤습니당!
📃스마트TV의 사용자 경험 차원에 대한 탐색적 연구 : 토픽모델링을 중심으로(김영범, 2022)
- 목적 : 스마트 TV 제품 관련 온라인 리뷰 데이터 분석을 통해 스마트 TV 사용자 경험 차원을 기존 선행연구들과 차별화 된 연구 프레임으로 도출하고자 함.
- 연구 방법
- 총 세 가지(LDA/ Dynamic / Joint Sentiment)의 토픽 모델링 기법을 활용함.
- Dynamic 토픽 모델링(DTM)은 LDA 모델에 시간이라는 변수를 추가한 LDA 확장 모델. 시간의 변화에 따른 토픽과 토픽에 속하는 단어의 변화를 파악할 수 있다는 장점이 있음.
- Joint Sentiment 토픽 모델링(JST)은 LDA에 감성을 반영하는 계층을 추가해 감성-주제 분석을 하는 기법. 감성과 토픽 정보를 동시에 추출할 수 있고, 비지도 학습 방식으로 충분한 크기의 문헌 집합만 있으면 학습 데이터 없이 감성 분석 진행 가능.
- LDA와 Dynamic 토픽 모델링 진행 후에는 Word2Vec을 통해 임베딩 진행 후, 딥러닝 모델 중 하나인 Bi-LSTM 활용해 감성 분석을 진행함.
- 연구 순서
- 아마존의 스마트 TV 제품 관련 모든 리뷰 데이터를 크롤링(약 10년 간 총 52,337건)
- 전처리 : 결측치 제거, 소문자 통일, 숫자/특수문자 등 제거, 불용어 제거
- 토큰화
- 표제어 추출
- 품사 태깅(POS 태깅)을 통해 2글자 이상의 명사, 형용사, 동사만 추출
- 벡터화
- 하이브리드 토픽 모델링 (LDA/ Dynamic / Joint Sentiment)
- 감성분석(LDA, DTM의 경우)
- 비교 분석 및 결과 해석
- 모델링 시 특이사항
- 토픽 개수 k를 정하는 것이 토픽 모델링에서 중요한 부분 중 하나. LDA 와 DTM의 경우 Coherence 값 참고해 최적의 토픽 개수 선정. JST는 Perplexity 활용.
- Coherence를 계산하는 방법 중 하나인 Umass를 활용. 토픽 모델의 성능은 Coherence를 바탕으로 함(토픽 모델링 결과는 모델 생성마다 결과값이 조금씩 다르므로 가장 일관성이 높은 모델을 선택하기 위함). Umass Coherence 값이 0과 가까울 수록 성능이 높음을 의미.
- Bi-LSTM 모델링 시 별점 4,5점은 긍정, 1,2점은 부정으로 분류. 3점은 중립으로 제거.
- 결과해석 시 특이사항
- LDA
- 스마트 TV 사용자 경험 관련 선행연구의 기준을 바탕으로 우선적으로 토픽 추출(리모컨 조종성, 적응 용이성, 연결성, 인지된 음질, 인지된 화질, 안정성), 이후 새롭게 발견된 차원(속도성, 스마트 기능 다양성) 추가.
- 각 토픽에 속한 단어와 관련된 원문을 분석하여 감성 분석 결과와 비교해보며 분석 결과 해석(★).
- 시각화는 토픽 간 거리, Top-30 Most Salient Terms 등 진행.
- DTM
- 각 토픽별 10년 간 구성 단어의 변화 분석. 단어 자체의 변화는 크지 않았지만 단어의 중요도(전체에서 차지하는 비중)이 변한 것에 초점을 두고 해석.
- JST
- 각 토픽별로 긍정, 부정 나누고 각 감정에 해당하는 단어 정리.
- 분석 결과를 바탕으로 스마트 TV 사용자 경험 강화 방안을 제시함.
- LDA


📃온라인 리뷰 분석을 통한 국내 OTT 서비스 이용자 만족 및 불만족 유발 요인 연구 : 어휘 분석 및 LDA 토픽 모델링 분석 방법을 중심으로(2022)
-작성 대기-
'🥐데이터분석' 카테고리의 다른 글
[배민 앱 VOC분석] 리뷰 군집화/클러스터링(예행연습) (0) | 2022.06.08 |
---|---|
[토픽 모델링] LDA(Latent Dirichlet Allocation) 개념 설명👀 (0) | 2022.06.07 |
[토픽 모델링] 기본 개념 이해하기 😎 (0) | 2022.06.06 |
다중회귀분석 R-squared 가 낮아도(0.2, 0.3) 괜찮을까? (0) | 2021.09.14 |
분류모델 성능평가 지표 : Confusion Matrix (0) | 2021.09.11 |