본문 바로가기

개발

인공지능 - 데이터 전처리

데이터 전처리

   1. 종류

      1) 데이터 정제 (cleaning): 빠진값 처리 or 오류 수정

         (*) 이상치: 값의 범위가 일반적인 범위를 벗어난 것

        - 이상치를 찾아내는 것을 이상치 검출(detection)이라 함

        - 이상치 검출은 전처리가 아닌 이 자체가 데이터 분석

        - 예: 도난당한 카드 사용 찾기, 불법 보험료 청구 검출, 기계 이상 동작 검출 등

 

      2) 데이터 변환 (transformation): 값에 로그적용, 역수 적용, 카테고리 변수 적용 등 - 예: 요일을 1, 2, ..., 7로 변형

        - 데이터가 선형관계가 되도록 변경함 - 모델은 함수구성이며 선형데이터여야 처리가 쉬워진다.

        - 자연현상은 보통 자연로그 형태의 선형함수 사용 - 예: 사람의 감각

 

      3) 스케일링 (scaling): 값의 범위 조정

        - 특성이 여러개 일 때 각 특성의 중요도를 갖게 맞춤

        - 표준 스케일링: 주어진 샘플의 평균이 0, 표준편차가 1이 되도록 변환

        - robust 스케일링: 변동이 미미한 부분 제거 - 표준편차형태에서 양 끝값부분을 제거

     

      4) 특성선택과 차원축소 (feature selection, dimensionality reduction): 특성 중 일부만 선택, 특성 조합, 특성 차원 수 줄이는 작업

        - 샘플간의 유사도(similarity) or 거리(distance)를 측정하기 위해 전처리가 필수

 

거리: 유클리디안 거리
유사도: 코사인유사도

 

 

 

반응형

'개발' 카테고리의 다른 글

DevOps란? CI/CD란?  (0) 2021.06.11
정규표현식 정리 + 사례 연구  (0) 2020.11.02
Base64 인코딩/디코딩  (0) 2020.07.29
인공지능 - 선형회귀모델  (0) 2020.05.01
인공지능 - 머신러닝 이론  (0) 2020.03.20