나혼빅(나혼자빅데이터)(6)
-
[시계열 데이터] 03. 시계열의 기본 특성(시계열 데이터 정의, 예제, 시계열데이터 구분, 분석 목적, 구성요소)
[시계열 데이터] 03. 시계열의 기본 특성 (1) 시계열 데이터의 정의/시계열 데이터의 예제/시계열 데이터의 구분/시계열 데이터의 분석 목적 (2) 시계열 데이터의 구성요소 해당 포스팅은 (1) Udemy(유데미)의 시계열 데이터 분석 with Python(파이썬) (2) 고려대 김성범 교수님의 예측모델 강의를 수강하면서 정리하였습니다. 본격적으로 Statsmodels을 활용한 시계열에 들어가기 전에, 기본적인 시계열의 기본 특성을 훑고 지나가자. 1. 시계열의 기본 특성 가. 시계열 데이터(Time Series) 정의 시계열 데이터 : 일정 시간동안 수집된 일련의 순차적으로 정해진 데이터 셋의 집합으로, 시간에 관해 순서가 매겨져있는 것, 연속한 관측치는 서로 상관관계를 갖는 것 시간의 흐름에 따라 ..
2022.03.17 -
[시계열 데이터] 02. 시계열 데이터 시각화(autoscale, WeekdayLocator, DateFormatter)
[시계열 데이터] 02. 시계열 데이터 시각화 (스타벅스 주식 데이터를 활용한 시계열 데이터 시각화 활용) 해당 포스팅은 Udemy(유데미)의 시계열 데이터 분석 with Python(파이썬)을 수강하면서 정리하였습니다. 01. 데이터 설명 캐글(Kaggle)의 스타벅스 주식 데이터 활용 https://www.kaggle.com/hrideshkohli/starbucks 총 1006 row, 3 columns('Date', 'Close', 'Volume')으로 구성 2015년 1월 2일부터 2018년 12월 31일 까지 스타벅스 종가(Close), 거래량수(Volume)를 나타낸 시계열 데이터 현재 일자에 해당하는 ‘Date’ 칼럼은 object 객체 타입으로, 시계열 분석을 위해서는 ‘Datetime’ ..
2022.03.12 -
[시계열 데이터] 01. 시계열 데이터 개요(DateTime 인덱스/ 시계열을 위한 판다스 유틸리티-Resampling/rolling/expanding) with 스타벅스 주식 데이터
[시계열 데이터] 01. 시계열 데이터 개요 (시계열데이터 분석을 위한 Datatime Index / 시계열 분석을 위한 판다스 유틸리티 활용) 해당 포스팅은 Udemy(유데미)의 시계열 데이터 분석 with Python(파이썬)을 수강하면서 정리하였습니다. 01. 데이터 설명 캐글(Kaggle)의 스타벅스 주식 데이터 활용 https://www.kaggle.com/hrideshkohli/starbucks 총 1006 row, 3 columns('Date', 'Close', 'Volume')으로 구성 2015년 1월 2일부터 2018년 12월 31일 까지 스타벅스 종가(Close), 거래량수(Volume)를 나타낸 시계열 데이터 현재 일자에 해당하는 ‘Date’ 칼럼은 object 객체 타입으로, 시계열..
2022.03.11 -
[빅데이터] 데이터 분석 도구 R / R Studio 설치 / 한글 인코딩
2021.04.23 데이버분석을 위한 R 설치 간단하게 빅데이터를 분석할 수 있는 R Studio 를 설치하고 천천히 R 사용법을 익혀야 겠다는 생각을 했다.R 이랑 Python 그리고 excel을 적재적소에 활용할 수 있어야 할 것 같다. 사실 excel은 컴활 따면서 조져논 상태이고Python은 사용할 줄은 앎 ( 구현력은 저세상갔지만)그래서 R도 작동법을 익히고 결과값을 어떻게 볼 수는 있어야 할 것 같아서 R 사용법을 조금이라도 익혀놔야겠다. 1. 먼저 R설치하기 cran.r-project.org/ The Comprehensive R Archive Network cran.r-project.org 위 사이트에서 설치. 나는 Window에서 사용하니 Window 버전을 깔았음 2021년 4월 23일 ..
2021.04.23 -
[통계] 심슨의 역설('Simpon's Paradox')
- 데이터가 조건부 변수를 감추고 있을 때, 즉 잠복 변수가 있을때 결과에 중대한 영향을 미칠 수 있는 추가적 요인이 있을 수 있다. - 이러한 역설을 피하기에는 딱히 정해진 답이 없기도하고, 자료들은 수많은 기준에 따라 분류되기도 해서 오히려 데이터 전체가 정확한 그림을 보여줄 수도 있기도 할 때가 있다. - 이를 항상 체감하면서 마이닝할 때 조심해야겠다. 심슨의 역설 감 잡을 때 활용했던 자료들 1) statkclee.github.io/statistics/stat-simpson.html 데이터 과학 – 기초 통계 statkclee.github.io 2) speakerdeck.com/ysunmi0427/simseunyi-yeogseol 심..
2021.03.09 -
day11. 컨텐츠 기반 추천 시스템( Content-based Recommendations) 을 위한 Vector Representation
2021.02.25 day11. 컨텐츠 기반 추천 시스템을 위한 Represented Items 벡터 형태의 Items을 표현하기 위해 총 12개의 컬럼을 선택하고, 전처리함 · 추천 시스템 (Recommendation system) - 사용자가 소비하지 않은 아이템 중 선호/만족할 것으로 예상되는 아이템을 규명함 - 사용자의 취향 파악 -> 취향에 따라 상품 추천 -> 사용자는 해당 상품 구매 - 추천 시스템을 경험하면 높은 확률로 충성 고객이 됨. 사용자 유입이 많아지고, 데이터가 쌓이게 됨 -> 견고한 추천 시스템이 됨 - 추천 시스템은 콘텐츠 기반 필터링/ 협업 필터링 방식으로 나뉨 여기서 내가 먼저 시도해 볼 것이 컨텐츠 기반 추천 시스템이다. 1. 콘텐츠 기반 필터링(Content based ..
2021.02.26