
백신 휴가로 평일임에도 시간이 붕뜨게 되어 오랜만에 R과 관련된 글을 올려보려고 한다. 오늘은 KNN 알고리즘과 예제 문제를 하나 풀어보자. K-최근접이웃(K-Nearest Neighbors) 알고리즘은 범주형 결과를 위한 분류 문제나 수치형 결과를 위한 예측 문제에 사용될 수 있다. KNN의 아이디어는 학습 데이터세트로 부터 분류하고자 하는 새로운 레코드와 유사한 k개의 레코드를 식별하는 것으로부터 시작된다. 또한, 소속된 클래스(y)와 예측 변수들 x1, x2, x3,... 간의 관계에 대한 가정을 만들지 않는 분류 기법이다. KNN은 비모수적인 방법으로서, 미리 가정된 함수에 대한 모수 추정을 포함하지 않으며, 데이터세트간의 유사성으로 정보를 얻는다. 여기서의 이슈는 예측변수 값들에 기반하여 어떻게..

추천시스템 알고리즘에 관해 공부한 내용을 정리해 보려고 한다. 추천시스템은 Netflex나 Youtube에서 연관 동영상을 추천해주거나 인기있는 동영상을 추천해 주기도 하고 아마존에서 연관상품을 추천해주는 것처럼 주위에서 자주 사용되고 있다. 추천시스템 알고리즘에는 여러 종류가 있는데, 크게 Content Based Filtering Recommender System Collaborative Filtering Recommender System Hybrid Recommender System 으로 나눌 수 있다. 이 중 첫번째로 Content Based Filtering 을 학습해 보도록 하겠다. Content Based Filtering은 사용자 한 명이 선호하는 아이템과 비슷한 아이템을 추천해 주는 방법..

삼성전자 주가예측이라는 주제로 프로젝트를 진행해 보려고 합니다. LSTM을 사용한 시계열 예측을 학습하던 중 실제로 적용해 보고 싶어 주제를 정해서 프로젝트를 진행하게 되었습니다. 1. 데이터 호출하기 이제 예측을 진행해 보겠습니다. 먼저 사용할 라이브러리를 호출합니다. import datetime import numpy as np import pandas as pd import pandas_datareader.data as pdr from keras.models import Sequential from keras.layers import Dense, LSTM from sklearn.preprocessing import MinMaxScaler from keras.callbacks import EarlyS..