인공지능 - 데이터 전처리
데이터 전처리
1. 종류
1) 데이터 정제 (cleaning): 빠진값 처리 or 오류 수정
◾ (*) 이상치: 값의 범위가 일반적인 범위를 벗어난 것
- 이상치를 찾아내는 것을 이상치 검출(detection)이라 함
- 이상치 검출은 전처리가 아닌 이 자체가 데이터 분석
- 예: 도난당한 카드 사용 찾기, 불법 보험료 청구 검출, 기계 이상 동작 검출 등
2) 데이터 변환 (transformation): 값에 로그적용, 역수 적용, 카테고리 변수 적용 등 - 예: 요일을 1, 2, ..., 7로 변형
- 데이터가 선형관계가 되도록 변경함 - 모델은 함수구성이며 선형데이터여야 처리가 쉬워진다.
- 자연현상은 보통 자연로그 형태의 선형함수 사용 - 예: 사람의 감각
3) 스케일링 (scaling): 값의 범위 조정
- 특성이 여러개 일 때 각 특성의 중요도를 갖게 맞춤
- 표준 스케일링: 주어진 샘플의 평균이 0, 표준편차가 1이 되도록 변환
- robust 스케일링: 변동이 미미한 부분 제거 - 표준편차형태에서 양 끝값부분을 제거
4) 특성선택과 차원축소 (feature selection, dimensionality reduction): 특성 중 일부만 선택, 특성 조합, 특성 차원 수 줄이는 작업
- 샘플간의 유사도(similarity) or 거리(distance)를 측정하기 위해 전처리가 필수