순환 신경망으로 IMDB 리뷰 분류하기
말뭉치 (Corpus)
정의: 말뭉치는 자연어 처리(NLP)에서 사용되는 텍스트 데이터의 집합을 의미합니다. 이는 특정 언어 또는 주제에 대한 데이터로 구성될 수 있으며, 다양한 형태의 문서, 대화, 기사 등을 포함할 수 있습니다.
용도: 말뭉치는 주로 모델 훈련에 사용됩니다. 예를 들어, 언어 모델, 텍스트 분류기, 기계 번역 시스템 등을 훈련하기 위해 대량의 텍스트 데이터를 필요로 합니다.
예시: 뉴스 기사 모음, 소설, 웹사이트의 텍스트, SNS 댓글 등이 말뭉치의 예가 될 수 있습니다.
토큰 (Token)
정의: 토큰은 텍스트에서 공백, 구두점, 특수 문자 등을 기준으로 분리된 최소 단위의 문자열을 의미합니다. 일반적으로 단어, 구 또는 심지어 문자 단위로도 분리될 수 있습니다.
처리 과정:
소문자 변환: 모든 토큰을 소문자로 변환하여 대소문자에 따른 차이를 없앱니다.
구두점 삭제: 문장에서 불필요한 구두점을 제거하여 분석의 일관성을 높입니다.
예시: "안녕하세요, 여러분!"이라는 문장은 ["안녕하세요", "여러분"]으로 토큰화될 수 있습니다.
원-핫 인코딩 (One-Hot Encoding)
정의: 원-핫 인코딩은 각 클래스 또는 카테고리를 벡터로 표현하는 방법입니다. 각 클래스는 고유한 인덱스를 가지며, 해당 클래스에 해당하는 인덱스의 값은 1이고 나머지는 0입니다.
구현:
예를 들어, 세 개의 클래스 {A, B, C}가 있을 경우, A는 [1, 0, 0], B는 [0, 1, 0], C는 [0, 0, 1]로 표현됩니다.
정수로 변환된 토큰을 원-핫 인코딩으로 변환하기 위해서는 어휘 사전의 크기만큼의 벡터를 생성해야 합니다.
용도: 분류 문제에서 각 클래스에 대한 정보를 명확히 표현할 수 있어, 머신러닝 모델에서 효과적으로 사용됩니다.
단어 임베딩 (Word Embedding)
정의: 단어 임베딩은 단어를 고차원 공간의 밀집 벡터로 변환하는 방법입니다. 이 벡터는 보통 실수 값으로 이루어져 있으며, 단어 간의 의미적 유사성을 반영합니다.
특징:
단어 임베딩은 단어의 의미를 포착할 수 있는 저차원 벡터로 변환함으로써, 기계 학습 모델이 더 효과적으로 단어 간의 관계를 학습할 수 있도록 돕습니다.
예를 들어, "왕"과 "여왕"은 비슷한 맥락에서 사용되기 때문에 그들의 벡터도 비슷한 값을 가집니다.
용도: 자연어 처리의 다양한 작업, 예를 들어 텍스트 분류, 감정 분석, 질문 응답 시스템 등에서 성능을 향상시키는 데 기여합니다.
확인문제
1. 2
2. 4
3. 3
10 x 16 + 16 x 16 + 16 = 432개
LSTM과 GRU셀
LSTM 셀
LSTM은 Long Short-Term Memory의 약자로, 긴 시퀀스 데이터를 효과적으로 처리하기 위해 설계된 순환 신경망(RNN) 구조입니다.
LSTM 셀은 입력 게이트, 삭제 게이트, 출력 게이트의 세 가지 주요 구성 요소로 이루어져 있습니다.
입력 게이트: 현재 입력 정보가 셀 상태에 얼마나 영향을 미칠지를 결정합니다.
삭제 게이트: 이전 셀 상태의 정보를 얼마나 유지할지를 결정하여 불필요한 정보를 삭제합니다.
출력 게이트: 셀 상태에서 어떤 정보를 출력할지를 결정합니다.
이러한 구조 덕분에 LSTM은 장기 의존성 문제를 해결하며, 시계열 데이터와 같은 복잡한 패턴을 학습하는 데 강점을 가집니다.
셀 상태
LSTM 셀은 은닉 상태와 별도로 셀 상태를 관리합니다.
셀 상태는 장기적인 정보 흐름을 유지하는 역할을 하며, 이전 정보가 다음 단계로 전달되지 않고 현재 셀 내에서만 순환됩니다.
이로 인해 LSTM은 시퀀스의 각 요소에 대해 장기적인 기억을 형성할 수 있으며, 필요한 정보를 적절히 조절하여 학습합니다.
GRU 셀
GRU(게이트 순환 유닛)는 LSTM의 간소화된 버전으로, 기본 구조는 비슷하지만 게이트 수가 줄어든 특징이 있습니다.
GRU는 업데이트 게이트와 리셋 게이트의 두 가지 게이트만을 사용하여 정보를 처리합니다.
업데이트 게이트: 이전 상태와 현재 입력을 결합하여 다음 상태를 얼마나 업데이트할지를 결정합니다.
리셋 게이트: 이전 상태의 정보를 얼마나 잊을지를 결정합니다.
GRU는 LSTM보다 계산 비용이 낮으면서도 유사한 성능을 발휘할 수 있어, 경량화된 모델이 필요한 경우에 적합합니다.
확인문제
1. 4
2. 1
3. 2
'AI > AID' 카테고리의 다른 글
[혼공 머신] 혼자 공부하는 머신러닝 정리하기 - Chapter 08-3, 09-1 (1) | 2024.11.24 |
---|---|
[혼공 머신] 혼자 공부하는 머신러닝 정리하기 - Chapter 08-1, 08-2 (0) | 2024.11.22 |
[혼공 머신] 혼자 공부하는 머신러닝 정리하기 - Chapter 07-2, 07-3 (0) | 2024.11.15 |
[혼공 머신] 혼자 공부하는 머신러닝 정리하기 - Chapter 06-3, 07-1 (0) | 2024.11.12 |
[혼공 머신] 혼자 공부하는 머신러닝 정리하기 - Chapter 06 (0) | 2024.11.07 |