[BITAmin] 2주차 - 훈련 세트와 테스트 세트 & 데이터 전처리

ssoy0514 2022. 4. 30. 17:00

2022. 4. 30. 17:00

2주차에는 '데이터다루기'라는 주제로

훈련세트와 테스트세트, 데이터 전처리에 대해 학습했다!

머신러닝은 인공지능의 한 분야로, 컴퓨터가 '데이터'를 이용하여

학습하는 알고리즘 기술이다.

입력과 출력을 통해 알고리즘을 도출해내는 기술이며,

정답값의 유무에 따라 지도학습과 비지도학습,

나아가 강화학습으로 구분할 수 있다.

지도학습은 정답값(label, target)이 있는

데이터셋을 통해 학습하는 방식이다.

크게 분류와 예측이 있는데,

분류는 여러 개의 카테고리가 있을 때, 이 데이터는 어떤 카테고리에 속하는지 분류하는 방법이다.

KNN, SVM, Decision Tree, Logistic Regression 등의 알고리즘이 속한다.

예측은 어떤 상황이나 특징이 주어졌을 때,

이 데이터의 (연속된) 값을 예측하는 방법이다.

이에 속하는 알고리즘에는 Linear Regression이 있다.

비지도학습은 정답값 없이 모델을 학습시키는 방식입니다.

크게 이상값 감지와 그룹화가 있습니다.

이상값 감지는 평소와는 다른 패턴이나 값을 파악하는 방식입니다.

그룹화는 어떤 특징을 기준으로 데이터를 그룹화하는 방법입니다.

K-means Clustering, DBSCAN Clustering 등의 알고리즘이 속합니다.

강화학습은 시행착오를 통해 학습하는 방식입니다.

실수와 보상을 통해 학습하여 목표를 향해 가고, 예시로는 알파고가 있습니다.

지도학습 데이터셋은 훈련세트와 테스트세트로 나뉩니다.

알고리즘의 성능을 평가하기 위해 훈련세트와 테스트세트가 달라야하며,

훈련세트의 데이터가 테스트세트보다 많아야하고,

훈련세트와 테스트세트에 샘플이 골고루 섞여있어야 합니다.

둘을 나누는 방법은

numpy 배열의 인덱스를 섞는 방법과

scikit-learn 패키지의 train_test_split() 함수를 사용하는 방법이 있습니다.

데이터 전처리는 특정 분석에 적합하게 데이터를 가공하는 작업이다.

데이터 분석 및 처리 과정에서 중요한 단계이며,

좋은 데이터는 완결성, 유일성, 통일성을 갖는 데이터이다.

데이터 전처리의 기법으로는 집계, 샘플링, 차원 축소, 특징 선택, 특징 생성, 이산화와 이진화, 속성 변화가 있다.

전처리 할 때 주의점으로는 잡음, 아티펙트, 정밀도, 편향, 정확도, 이상치,

결측치, 모순과 불일치, 중복 등이 있다.

전처리 과정은 데이터 수집 - 정제 - 통합 - 축소 - 변환의 순서를 거친다.

수집은 목적과 목표가 되는 정보를 수집하는 단계로,

문제정의, 데이터 분석 기획과 시나리오가 중요하다.

정제는 데이터를 활용할 수 있도록 만드는 과정으로,

누락값, 불일치값, 오류값을 수정하는 단계이다.

통합은 서로 다른 출처의 여러 데이터를 결합하는 과정으로,

데이터세트가 호환이 가능하도록 같은 객체, 단위나 좌표로 통합한다.

축소는 분석을 실행하기 어려운 대용량 데이터의 크기를 줄이는 과정이다.

데이터 전처리 전 데이터를 확인하는 과정을 거친다.

결측치는 제거하거나 대치하거나 예측모델을 통해 채울 수 있다.

제거는 목록 삭제와 단일값 삭제 방법이 있다.

목록 삭제는 결측치가 있는 행이나 열을 전부 삭제하는 방법이다.

단일값 삭제는 행/열 자체가 결측치일 때,

혹은 어떠한 조건에 따라 삭제하는 방법이다.

subset =[' ', ' '] 옵션으로 조건부 삭제가 가능하다.

pandas에서 누락 데이터를 제거하는 함수로 dropna()를 이용한다.

대치는 단순 대치법과 다중 대치법이 있다.

단순 대치법에는 단순 삭제, 평균 대치법, 단순확률 대치법이 있으며,

중앙값, 최빈값, 0, 분위수, 주변값, 예측값 등으로 대치 가능하다.

다중대치법은 단순대치법을 여러번 반복하는 방법이다.

pandas에서 결측치를 대체하는 함수는 fillna(), replace(), interpolate()가 있다.

예측모델은 결측값을 제외한 데이터로부터 모델을 훈련하고,

추정값을 계산하고 결측치를 대체하는 방법이다.

K-최근접 이웃 대체, 가중 K-최근접 이웃 대체, 로지스틱 회귀,

서포트 벡터 머신, 랜덤 포레스트 방식 등이 있다.

데이터의 중복은 언제든지 일어날 수 있지만, 중복 데이터 사이에

속성의 차이나 값의 불일치가 발생한다면 문제가 생기기 때문에

그 경우 두 개체를 합쳐 하나의 개체를 만들거나,

응용에 적합한 속성을 가진 데이터를 선택하는 등

추가적인 작업이 필요하다.

불균형데이터는 분류를 목적으로 하는 데이터셋에 범주의 비율이 불균형한 경우 각 범주에 속한 데이터 개수의 차이가 큰 데이터이다.

정상 범주의 데이터 수와 이상 범주의 데이터 수가 현저히 차이난다면

이상 데이터를 정확히 찾아내지 못할 수 있다는 문제가 발생한다.

under sampling과 over sampling 방식으로 처리할 수 있다.

imbalanced-learn 패키지는 불균형데이터 문제를 해결하기 위한 다양한 샘플링 방법을 구현한 파이썬 패키지이다.

Under Sampling은 다수 범주의 데이터를 소수 범주의 크기에 맞게 줄이는 샘플링 방식이다.

계산 시간이 감소하고, 유의미한 데이터만 남는다는 장점이 있고,

정보의 손실이 발생한다는 단점이 있다.

1) Random Under Sampling

랜덤으로 데이터를 선택하여 제거하는 샘플링 방법이다.

무작위로 샘플링하기 때문에 매번 결과가 달라진다.

2) Tomek's Link

- 서로 다른 범주에 속하는 한 쌍의 데이터를 묶은 후

서로 다른 데이터가 존재하지 않게끔 만든다.

- 범주가 다른 두 데이터가 매우 가까이 붙어있으면 tomek link가 된다.

- tomek link에서 그 중 다수 범주에 속하는 데이터를 제거하는 방법이다.

- 즉, 경계선에서 붙어있는 서로 다른 범주의 데이터 한 쌍이 tomek link이고, 그 중 다수 범주에 해당하는 데이터를 지우는 방법이다.

- 다수 범주 데이터의 중심 분포를 유지하고, 정보 유실이 적다는 장점이 있고,

tomek link로 묶이는 값이 한정적이다는 단점이 있다.

3) Condensed Nearest Neighbor (CNN)

- 소수 범주에 속하는 데이터 전체 + 다수 범주에 속하는 데이터 중

임의의 한 데이터 -> 서브데이터 생성

- 다수 범주에 속하는 나머지 데이터들 중 하나씩 K=1인 1-NN 알고리즘을

이용하여 데이터가 무작위로 선택한 다수 범주 데이터와 가까운지, 소수 범주 데이터와 가까운지 확인하여 가까운 범주로 임시 분류합니다.

- 이 과정 반복 후 정상 분류된 다수 범주 관측치를 제거합니다.

3-nn을 사용할 경우 모든 샘플이 소수 범주로 분류되기 때문에 결국 어떤 샘플도 제거되지 않는다.

-> 항상 1-nn을 사용해야 한다.

Over Sampling은 소수 범주의 데이터를 다수 범주의 데이터 수에 맞게 늘리는 방식이다.

1) Random Over Sampling

- 소수 범주의 데이터를 반복하여 넣는 오버 샘플링 방법이다.

- RandomOverSampler: random sampler

2) ADASYN (Adaptive Synthetic Sampling)

- 소수 범주 데이터와 그 데이터에서 가장 가까운 k개의 소수 범주 데이터 중 무작위로 선택된 데이터 사이의 직선 상에 가상의 소수 범주 데이터를 만드는 방법이다.

- 유동적으로 소수 범주 데이터를 생성할 수 있다는 장점이 있다.

- 모든 소수 범주 데이터에 대해 가까운 k개의 데이터 탐색

-> 탐색된 데이터 중 다수 범주 관측치 비율 계산

-> 비율에 따라 가상의 소수 범주 데이터 생성

3) SMOTE (Synthetic Minority Oversampling Technique)

- ADASYN 방식처럼 데이터를 생성하지만, 생성 데이터를 무조건 소수 범주로

분류하지 않고 분류 모형에 따라 분류하는 방식이다.

- 소수 범주의 한 데이터 주변 가까운 k개의 데이터 탐색

- 탐색한 데이터 샘플 사이에 새로운 데이터 생성

- 생성된 데이터를 분류 모형에 따라 다수 또는 소수 범주로 분류

- 선택된 두 관측치에 대해 식을 통해 가상의 관측치를 생성한다.

이때 두 점 사이의 거리를 이용한다.

두 가지의 샘플링 방식을 결합한 복합 샘플링 방식도 있다.

1) SMOTEENN : SMOTE + ENN (Edited Nearest Neighbors)

- X_samp, Y_samp = SMOTEENN(random_state=0).fit_sample(X_imb, Y)_imb)

2) SMOTETomek : SMOTE + Tomek

- X_samp, Y_samp = SMOTETomek(random_state=4).fit_sample(X_imb, Y_imb)

레이블 인코딩은 문자열 카테고리 피처를 코드형 숫자값으로 변환하는 방법이다.

문자열 카테고리 피처는 카테고리형과 텍스트형을 의미한다.

컴퓨터는 문자보다 숫자를 더 잘 처리하기 때문에

숫자값으로 변환하는 것이 유리하다.

특히 scikit-learn의 알고리즘은 문자열값을 입력값으로 사용하지 않기 때문에

레이블 인코딩이 필요하다.

이때 숫자값 자체에는 의미가 없기 때문에, 회귀와 같이 숫자값에 의미를 부여하는 일부 알고리즘에서는 예측 성능이 저하될 수 있다.

pandas에서는 pd.factorize() 함수로 인코딩값과 범주값을 반환할 수 있다.

scikit-learn에서는 encoder = LabelEncoder() 함수로 인코딩을 할 수 있다.

encoder.fit() : 학습

encoder.transform() : 변환

encoder.fit_transform() : fit, transform 한번에

원핫인코딩은 피처값의 유형에 따라 새로운 피처를 추가해 고유값에

해당하는 칼럼에만 1을 표시하고, 나머지 칼럼에는 0을 표시하는 방법이다.

변환 전 모든 문자열 값이 숫자형으로 변환되어야 하며,

입력값으로 2차원 데이터가 필요하다.

의미없는 숫자의 크기 차이를 만드는 레이블 인코딩의 단점을 보완할 수 있다.

하지만 단어의 개수가 늘어날수록 필요한 저장공간이 늘어나기 때문에

저장공간의 측면에서 비효율적이라는 단점이 있다.

Feature Scaling은 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업이다.

변수값의 범위 또는 단위가 달라서 발생 가능한 문제를 예방할 수 있고,

머신러닝 모델이 특정 데이터에 bias를 갖는 것을 방지할 수 있다.

표준화 -> 이상치 발견 및 제거(z-score 활용) -> 정규화의 순서로 진행된다.

표준화는 서로 다른 범위의 변수들을 평균이 0이고 분산이 1인 가우시안 정규분포를 가진 값으로 변환하는 작업이다.

Standard score을 구하는 방법과 scikit-learn을 이용하는 방법이 있다.

standard score(z-score)는 우선 평균과 표준편차를 구한 후,

훈련세트와 테스트세트를 각각 표준화하는 방법이다.

scikit-learn 패키지에서는

from sklearn.preprocessinig import StandardScaler로 패키지를 import하고

standard_scaler = StandardScaler()로 정의하여 표준화할 수 있다.

Scaler에 의해 변환된 데이터는 ndarray형식이므로

dataframe 형식으로의 명시적 변환이 필요하다.

정규화는 변수값들을 모두 0과 1 사이의 값으로 변환하는 방식이다.

from sklearn.preprocessing import MinMaxScaler로 import하고,

scaled = MinMaxScaler().fit_transform(x.reshape(-1,1)) 처럼 사용한다.

저작자표시 (새창열림)

'BITAmin 9기🍊' 카테고리의 다른 글

[BITAmin] 6주차 - 로지스틱 회귀 (0)	2022.10.02
[BITAmin] 5주차 - 회귀 알고리즘 복습 및 심화, 관련 실습 (0)	2022.08.06
[BITAmin] 4주차 - 특성공학과 규제 (0)	2022.08.05
[BITAmin] 3주차 K-최근점 이웃 회귀, 선형 회귀 (0)	2022.06.27
[Bitamin] 1. 인공지능 입문 (0)	2022.03.14

ssoy's world

[BITAmin] 2주차 - 훈련 세트와 테스트 세트 & 데이터 전처리

'BITAmin 9기🍊' 카테고리의 다른 글

+ Recent posts

티스토리툴바