[혼공 머신] 혼자 공부하는 머신러닝 정리하기 - Chapter 09
·
AI/AID
순환 신경망으로 IMDB 리뷰 분류하기말뭉치 (Corpus)정의: 말뭉치는 자연어 처리(NLP)에서 사용되는 텍스트 데이터의 집합을 의미합니다. 이는 특정 언어 또는 주제에 대한 데이터로 구성될 수 있으며, 다양한 형태의 문서, 대화, 기사 등을 포함할 수 있습니다.용도: 말뭉치는 주로 모델 훈련에 사용됩니다. 예를 들어, 언어 모델, 텍스트 분류기, 기계 번역 시스템 등을 훈련하기 위해 대량의 텍스트 데이터를 필요로 합니다.예시: 뉴스 기사 모음, 소설, 웹사이트의 텍스트, SNS 댓글 등이 말뭉치의 예가 될 수 있습니다. 토큰 (Token)정의: 토큰은 텍스트에서 공백, 구두점, 특수 문자 등을 기준으로 분리된 최소 단위의 문자열을 의미합니다. 일반적으로 단어, 구 또는 심지어 문자 단위로도 분리될 ..