머신러닝 텍스트 데이터 변형 프로세스

2022. 3. 18. 00:00

출처 : https://techblog-history-younghunjo1.tistory.com/110?category=924148

비정형 데이터가 어떤 과정으로 머신러닝 모델에 input 으로 들어가는지

1) 클린징 과정을 거쳐 데이터셋을 보기좋게 정제

2) 데이터 정규화

2-1) 토큰화

2-2) 필터링 / 불용어 제거 / 오타수정

2-3) 어근(단어의 원형) 추출

토큰화(Tokenization) : 문서를 문장 단위로, 문장을 단어 단위로 쪼개는 것을 말한다. 주로 사용되는 방법으로 N-gram 방법이 있는데 N-gram에 대한 개념은 여기를 참고하자.
필터링, 불용어 제거, 철자 수정 : 말 그대로 불필요한 단어 즉, 텍스트로부터 주요한 정보를 얻는 것에 영향을 미치지 않는 단어들을 제거한다. 영어의 불용어에 대한 예시로는 'he', 'is', 'will' 등이 되겠다.
어근 추출 : Stemming이라고도 한다. 또 다른 방법으로는 Lemmatization 방법도 존재하는데, 이 두개 중 Lemmatization이 더욱 더 정교한 방법이다. 정교하다란, 예를 들어, classifies 라는 단어의 어근을 추출할 때 Stemming은 단순히 어미를 제거해 classif 라고 어근을 추출하지만 Lemmatization은 classify로 제대로 어근을 추출한다.(물론 classifies를 실제로 수행해본 것은 아니니 Lemmatization이 더욱 더 정교한 방법이라는 주장에 힘을 실어줄 가상의 예시일 뿐이다.)

그런데...어떻게 텍스트 데이터를 숫자형태로 바꾸어서 머신러닝 모델이 알아듣도록 변형하지???? @..@;;;

3) 텍스트를 숫자로 변형해 주는 과정인 피처 벡터화(Feature Vectorizer) 수행

4) 위의 데이터를 머신러닝 input 데이터로 집어넣기 위해 적절한 모델 설정

5) 학습/검증/테스트 데이터를 분할해 하이퍼라미터 튜닝

6) 모델 성능 평가

nvida gpu 분할 할당 (0)	2022.03.18
nvidia-docker GPU 할당하여 사용 하는 방법 3가지 (0)	2022.03.18
nvidia GPU 관련 확인 명령어 (0)	2022.03.18

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

흔적s