머신러닝
머신러닝 텍스트 데이터 변형 프로세스
iamreo
2022. 3. 18. 00:00
반응형
출처 : https://techblog-history-younghunjo1.tistory.com/110?category=924148
비정형 데이터가 어떤 과정으로 머신러닝 모델에 input 으로 들어가는지
1) 클린징 과정을 거쳐 데이터셋을 보기좋게 정제
2) 데이터 정규화
2-1) 토큰화
2-2) 필터링 / 불용어 제거 / 오타수정
2-3) 어근(단어의 원형) 추출
|
그런데...어떻게 텍스트 데이터를 숫자형태로 바꾸어서 머신러닝 모델이 알아듣도록 변형하지???? @..@;;;
3) 텍스트를 숫자로 변형해 주는 과정인 피처 벡터화(Feature Vectorizer) 수행
4) 위의 데이터를 머신러닝 input 데이터로 집어넣기 위해 적절한 모델 설정
5) 학습/검증/테스트 데이터를 분할해 하이퍼라미터 튜닝
6) 모델 성능 평가
반응형