반응형

출처 : https://techblog-history-younghunjo1.tistory.com/110?category=924148

비정형 데이터가 어떤 과정으로 머신러닝 모델에 input 으로 들어가는지

1) 클린징 과정을 거쳐 데이터셋을 보기좋게 정제

2) 데이터 정규화 

    2-1) 토큰화

    2-2) 필터링 / 불용어 제거 / 오타수정

    2-3) 어근(단어의 원형)  추출

  • 토큰화(Tokenization) : 문서를 문장 단위로, 문장을 단어 단위로 쪼개는 것을 말한다. 주로 사용되는 방법으로 N-gram 방법이 있는데 N-gram에 대한 개념은 여기를 참고하자.
  • 필터링, 불용어 제거, 철자 수정 : 말 그대로 불필요한 단어 즉, 텍스트로부터 주요한 정보를 얻는 것에 영향을 미치지 않는 단어들을 제거한다. 영어의 불용어에 대한 예시로는 'he', 'is', 'will' 등이 되겠다.
  • 어근 추출 : Stemming이라고도 한다. 또 다른 방법으로는 Lemmatization 방법도 존재하는데, 이 두개 중 Lemmatization이 더욱 더 정교한 방법이다. 정교하다란, 예를 들어, classifies 라는 단어의 어근을 추출할 때 Stemming은 단순히 어미를 제거해 classif 라고 어근을 추출하지만 Lemmatization은 classify로 제대로 어근을 추출한다.(물론 classifies를 실제로 수행해본 것은 아니니 Lemmatization이 더욱 더 정교한 방법이라는 주장에 힘을 실어줄 가상의 예시일 뿐이다.)

그런데...어떻게 텍스트 데이터를 숫자형태로 바꾸어서 머신러닝 모델이 알아듣도록 변형하지???? @..@;;;

    3) 텍스트를 숫자로 변형해 주는 과정인 피처 벡터화(Feature Vectorizer) 수행

    4) 위의 데이터를 머신러닝 input 데이터로 집어넣기 위해 적절한 모델 설정

    5) 학습/검증/테스트 데이터를 분할하이퍼라미터 튜닝

    6) 모델 성능 평가

 

반응형

'머신러닝' 카테고리의 다른 글

nvida gpu 분할 할당  (0) 2022.03.18
nvidia-docker GPU 할당하여 사용 하는 방법 3가지  (0) 2022.03.18
nvidia GPU 관련 확인 명령어  (0) 2022.03.18

+ Recent posts