[R] ngram, 토근화

ngram(s)

: 연이어 사용된 n개의 단어를 엔그램(ngram)이라고 한다.
1-gram : 하나의 단어
2-gram : bigram 두단어
3-gram : trigram 세단어
4-gram ..

연이어 사용되는 단어의 쌍을 분석
ex) 죽는 날까지 하늘을 우러러 한 점 부끄럼 없기를 잎새에 이는 바람에도 나는 괴로워했다.
<2-gram>
죽는 날까지
날까지 하늘을
하늘을 우러러
우러러 한
한 점
점 부끄럼
부끄럼 없기를
없기를 잎새에
잎새에 이는
이는 바람에도
바람에도 나는
나는 괴로워했다

토근화

install.packages("RWeka")
library(RWeka)

Tokenizer <- function(x) RWeka::NGramTokenizer(x,RWeka::Weka_control(min=1,max=2))
moon_word_dfm <- DocumentTermMatrix(moon_corpus,
                                    control = list(tokenizer=Tokenizer))
#기본값 : moon_word_dfm <- DocumentTermMatrix(moon_corpus,
                                    control = list(tokenizer="words"))

moon_wordfreq <- colSums(as.matrix(moon_word_dtm))
moon_word_df <- data.frame(word=names(moon_wordfreq),freq=moon_wordfreq)

moon_word_sentiment <- merge(moon_word_df,k_sentiment_dic,by='word')
head(moon_word_sentiment)
aggregate(word~sentiment,moon_word_sentiment,length)

'R' 카테고리의 다른 글

[R] 머신러닝 - Naive Bayes로 학습 후 분류 (0)	2022.02.18
[R] 감성분석 예제 - 취임사 분석(군산대 감성분석사전) (0)	2022.02.18
[R] 자연어 처리 - NLP (0)	2022.02.16
[R] 감성분석 (0)	2022.02.16
[R] text mining (0)	2022.02.15

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

데이터 분석

[R] ngram, 토근화

ngram(s)

토근화

'R' 카테고리의 다른 글

티스토리툴바

[R] ngram, 토근화

ngram(s)

토근화

'R' 카테고리의 다른 글

'R' 관련글

티스토리툴바