[NLP/자연어처리] 정보 검색 & 단어 임베딩(Information Retrieval & Word Embedding)
·
🤖 ai logbook
reference 더보기 https://wikidocs.net/book/7100 Hands-On Guide To Word Embeddings Using GloVe (analyticsindiamag.com) https://www.youtube.com/watch?v=55tRetTTrdQ https://wikidocs.net/book/2155 Vector Space Models VSM(벡터 공간 모델, Vector Space Model)에서 object들은 multi-dimension 연속 공간에서 vector로 표현된다. NLP에서 공간이란 일반적으로 의미 공간(semantic space)라고 하며, object의 표현을 분산표현(distributed representation)이라고 부른다. 여기서 obj..
[NLP/자연어처리] 감정 분석 & 문장에 대한 확률 (Sentiment Classification & Probabilities to Sentences)
·
🤖 ai logbook
reference 더보기 https://youtu.be/pmcXgNTuHnk https://wikidocs.net/book/2155 Sentiment Analysis를 위한 Optimizing sentiment, 감정과 같은 작업의 경우 단어 빈도보다 발생이 더 중요하다 binary NB(Binary multinominal naive bayes) 각 문서 내의 단어 수를 1로 제한한다 (단어 빈도보다 단어의 존재 여부가 더 중요하므로) Bernoulli Naive Bayes(특징의 존재 여부를 고려)와는 다르다. Learning $P(c_j)$ 계산 $P(c_j)$은 $c_j$의 사전 확률을 나타내며, 훈련 데이터에서 클래스 $c_j$의 문서 수를 전체 문서 수로 나누어 계산할 수 있다. $$P(c_j)..
[NLP/자연어처리] 언어 모델에서의 나이브베이즈 (Naive Bayes as a Language Model)
·
🤖 ai logbook
reference 더보기 https://wikidocs.net/book/8027 https://www.wikidocs.net/book/2155 https://www.wikidocs.net/book/6038 Bag of Words Naive Bayes 방법은 Bayes rule에 기반한 간단한 Classification 방법이며, Naive Bayes Classification을 위해서는 데이터를 Bag of Words로 만들어 줄 필요가 있다. Bag of Words란 document를 가장 간단하게 표현하는 방법으로, 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법이다. "This is a cat" 으로 예를 든다면, "This..
[NLP/자연어처리] 언어 모델링(Language Modeling)
·
🤖 ai logbook
reference 더보기 https://wikidocs.net/book/8027 https://www.wikidocs.net/book/2155 Language Modeling 주어진 단어들로부터 아직 모르는 단어를 예측하는 작업 그리고 언어 모델은 단어 시퀀스에 확률을 할당(assign) 하는 일을 하는 모델 ex1) Machine Translation: P(high winds tonite) > P(large winds tonite) ex2) Spell Correction The office is about fifteen minuets from my house P(about fifteen minutes from) > P(about fifteen minuets from) ex3) Speech Recogni..
[NLP/자연어처리] 단어 토큰화(Word Tokenization)
·
🤖 ai logbook
reference 더보기 https://wikidocs.net/book/8027 https://www.wikidocs.net/book/2155 NLP(Natural Language Processing) 작업을 위해 텍스트 데이터를 수집해야 한다. 이 때의 텍스트 데이터를 Corpus라 한다. 이렇게 수집된 Corpus를 사용하기 위하여 데이터를 Tokenization하는 과정이 필요하며, 여기서 '토큰(token)'은 텍스트에서 의미를 갖는 최소 단위로 분할된 단어, 문장 부호, 숫자 등을 의미한다. 여기서 '토큰화'를 수행하는 도구가 '토크나이저(tokenizer)'이다. 1. 말뭉치 ( corpus ) 텍스트 데이터의 집합 ex) Google Corpora https://www.english-corp..
[cs231n/Spring 2023] Lecture 3: Regularization and Optimization
·
🤖 ai logbook
Standford University - CS231n(Convolutional Neural Networks for Visual Recognition) Stanford University CS231n: Deep Learning for Computer Vision ✔ reference 더보기 YouTube cs231n 2강 Image classification pipeline - YouTube Lecture 1 | Introduction to Convolutional Neural Networks for Visual Recognition - YouTube Doc https://yganalyst.github.io/dl/cs231n_1 https://yerimoh.github.io/DL206/ https://bi..
[cs231n/Spring 2023] Lecture 2: Image Classification with Linear Classifiers
·
🤖 ai logbook
Standford University - CS231n(Convolutional Neural Networks for Visual Recognition)Stanford University CS231n: Deep Learning for Computer Vision ✔ reference더보기YouTube cs231n 2강 Image classification pipeline - YouTubeLecture 1 | Introduction to Convolutional Neural Networks for Visual Recognition - YouTubeDochttps://yganalyst.github.io/dl/cs231n_1https://yerimoh.github.io/DL206/https://biology-st..