ngram(s)
: 연이어 사용된 n개의 단어를 엔그램(ngram)이라고 한다.
1-gram : 하나의 단어
2-gram : bigram 두단어
3-gram : trigram 세단어
4-gram ..
연이어 사용되는 단어의 쌍을 분석
ex) 죽는 날까지 하늘을 우러러 한 점 부끄럼 없기를 잎새에 이는 바람에도 나는 괴로워했다.
<2-gram>
죽는 날까지
날까지 하늘을
하늘을 우러러
우러러 한
한 점
점 부끄럼
부끄럼 없기를
없기를 잎새에
잎새에 이는
이는 바람에도
바람에도 나는
나는 괴로워했다
토근화
install.packages("RWeka")
library(RWeka)
Tokenizer <- function(x) RWeka::NGramTokenizer(x,RWeka::Weka_control(min=1,max=2))
moon_word_dfm <- DocumentTermMatrix(moon_corpus,
control = list(tokenizer=Tokenizer))
#기본값 : moon_word_dfm <- DocumentTermMatrix(moon_corpus,
control = list(tokenizer="words"))
moon_wordfreq <- colSums(as.matrix(moon_word_dtm))
moon_word_df <- data.frame(word=names(moon_wordfreq),freq=moon_wordfreq)
moon_word_sentiment <- merge(moon_word_df,k_sentiment_dic,by='word')
head(moon_word_sentiment)
aggregate(word~sentiment,moon_word_sentiment,length)
'R' 카테고리의 다른 글
[R] 머신러닝 - Naive Bayes로 학습 후 분류 (0) | 2022.02.18 |
---|---|
[R] 감성분석 예제 - 취임사 분석(군산대 감성분석사전) (0) | 2022.02.18 |
[R] 자연어 처리 - NLP (0) | 2022.02.16 |
[R] 감성분석 (0) | 2022.02.16 |
[R] text mining (0) | 2022.02.15 |