[R좀 R려줘!] wordcloud2 패키지를 이용해 최다빈도 단어 추출하기!

👈 Click! 투표!

안녕하세요 🙂

오늘은 wordcloud2 패키지를 이용하여 최다빈도 단어를 추출해보도록 하겠습니다!

추출할 단어를 위해 하나의 csv 파일을 사용할 것이라 다음 링크에서 다운받아서 활용해주세요!


df = read.csv("news_article_2014_2017.csv",
              stringsAsFactors = FALSE)
head(df, 2)

df[, "title"] = gsub("\(.*?\)", "", df$title) # () 분리
df[, "title"] = gsub("\[.*?\]", "", df$title) # [] 분리
df[, "title"] = gsub("<.*?>", "", df$title)

head(df$title, 20)

punct = gsub(pattern = "[ㄱ-힣A-Za-z0-9 ]", "", df$title)
head(punct)

punct = paste0(unique(punct), collapse = "")
punct = unique(unlist(strsplit(punct, split = "")))
punct

df[, "title"] = gsub(pattern = "[^ㄱ-힣A-Za-z0-9 ]", "", df$title)

words = unlist(strsplit(df$title, split = " "))
df_words = as.data.frame(table(words))
df_words = df_words[order(df_words$Freq, decreasing = TRUE), ]
head(df_words)

#install.packages("wordcloud2")
library("wordcloud2")
wordcloud2(df_words[2:22, ])

먼저 작성되어 있는 뉴스 제목을 크롤링 한 이후라고 가정 했을 때, 각 뉴스별로 데이터를 정제하는 작업이 필요합니다.

해당 작업을 gsub() 함수를 이용해서 작업했고요! ㅎㅎ

저렇게 사용해서 돌려보면~



이렇게 어떤 단어가 가장 많이 사용됐는지 보여주며, 사용 빈도가 많을 수록 글자 크기가 크게 보입니다.

심지어!

저곳 단어에 마우스를 오버하면?!



중국이란 단어가 몇번 사용되었는지도 확인할 수 있어요~

아주 강력한 패키지죠? ㅎㅎㅎ

2020.02.27 – [개발] – [R좀 R려줘!] R 을 이용한 네이버 뉴스 크롤링 하기!

[R좀 R려줘!] R 을 이용한 네이버 뉴스 크롤링 하기!

R을 이용해 사용자 정의 함수 naver_news와 make_url 두개의 함수를 통해 네이버 뉴스를 크롤링 해보도록 하겠습니다! naver_news의 경우 크롤링 하는데 들어갈 목록을 정의한 함수입니다. 저의 경우 신

signedinfo.com

2020.02.27 – [개발] – [R좀 R려줘!] R gsub() 함수를 이용한 패턴 치환하기!

[R좀 R려줘!] R gsub() 함수를 이용한 패턴 치환하기!

R gsub() 함수를 이용하여 패턴 치환하는 방법에 대해 알아보겠습니다. 예제(text1)에 있는 값을 gsub()함수를 이용해 ‘@’로 치환하는 작업입니다. 참고) # 활용 함수 # ▶ gsub(): 패턴 치환 아래 내용을

signedinfo.com

2020.02.27 – [일상] – 멀티캠퍼스 R좀 R려줘! R 데이터 분석 with Cloud 후기!!

멀티캠퍼스 R좀 R려줘! R 데이터 분석 with Cloud 후기!!

안녕하세요 :-)! 오늘은 멀티캠퍼스에서 진행하는 R좀 R려줘! R 데이터 분석 with Cloud 강의 들은 후기에 대해 포스팅 해볼까 합니다! 그럼 시작해볼까요? ㅎㅎ 우선. 저는 사실 멀티캠퍼스를 잘 모

signedinfo.com

2020.02.28 – [개발] – [R좀 R려줘!] R rbind(), colnames()를 활용한 하나의 data.frame() 만들기!

[R좀 R려줘!] R rbind(), colnames()를 활용한 하나의 data.frame() 만들기!

안녕하세요 🙂 오늘은 R함수인 rbind(), colnames()를 활용하여 하나의 data frame을 만들어보려고 합니다! 실습 파일 다운로드 링크 문제는 아래와 같습니다.  Q. “2014_2017.xlsx” 에는 4개의 sheet가 있다…

signedinfo.com

2020.02.28 – [개발] – [R좀 R려줘!] R unique(), nrow()를 활용한 언론사 별 트렌드 파악하기!

[R좀 R려줘!] R unique(), nrow()를 활용한 언론사 별 트렌드 파악하기!

안녕하세요 🙂 오늘은 R함수인 unique(), nrow()를 활용하여 언론사 별 트렌드를 파악해보려고 합니다! 실습 파일 다운로드 링크 문제는 아래와 같습니다. # Q1. 몇 군데 언론사의 뉴스 기사가 수

signedinfo.com

2020.02.28 – [개발] – [R좀 R려줘!] aggregate(), ggplot() 함수를 이용한 언론사별 뉴스기사 그래프 그리기!

[R좀 R려줘!] aggregate(), ggplot() 함수를 이용한 언론사별 뉴스기사 그래프 그리기!

안녕하세요 🙂 오늘은 aggregate(), ggplot()함수를 이용하여 언론사별 뉴스기사 그래프를 그려보려고 합니다! 이전 글을 먼저 확인해주세요! 1) 2020/02/28 – [개발] – [R좀 R려줘!] R rbind(), colnames()를 활..

signedinfo.com

2020.02.28 – [개발] – [R좀 R려줘!] R에서 자연어(NLP)처리를 해보자!

[R좀 R려줘!] R에서 자연어(NLP)처리를 해보자!

안녕하세요 :-)! 오늘은 R에서 자연어(NLP) 처리를 어떻게 하는지 알아보려고 합니다! R 자연어 처리의 경우 SK텔레콤에 재직 중이신 Jeon Heewon님의 깃헙을 참고해보려고 해요! R에 자연어 처리 패키

signedinfo.com

2020.02.28 – [개발] – [R좀 R려줘!] 데이터 분석할때 반복문 진행 현황 확인하기!

[R좀 R려줘!] 데이터 분석할때 반복문 진행 현황 확인하기!

안녕하세요 🙂 데이터 분석할때 반복문을 심심치 않게 사용하는데요! 이때 분석량이 많을 경우 어디까지 진행 됐는지 궁금할때 있잖아요? for(n in 1:65){ cat(paste0(“r==== Progress: “, n, “/65 ====”)) #Sys..

signedinfo.com

2020.02.28 – [개발] – [R좀 R려줘!] 하나의 엑셀(Excel)에 담긴 정보를 특정 기준으로 여러 엑셀 파일로 나누고 합치기!

[R좀 R려줘!] 하나의 엑셀(Excel)에 담긴 정보를 특정 기준으로 여러 엑셀 파일로 나누고 합치기!

안녕하세요 :-)!! 오늘은 하나의 엑셀에 담긴 정보를 여러 엑셀 파일로 쪼개는 방법에 대해 알아보겠습니다! 사용할 예제 파일은 링크를 통해 확인해주세요. ㅎㅎ elec = read.csv(“elec_load.csv”, stringsAs

signedinfo.com

2020.02.28 – [개발] – [R좀 R려줘!] R을 이용하여 네이버 실시간 검색어, 인스타그램 검색 결과 크롤링 하기!!

[R좀 R려줘!] R을 이용하여 네이버 실시간 검색어, 인스타그램 검색 결과 크롤링 하기!!

안녕하세요 🙂 오늘은 R을 이용하여 네이버 실시간 검색어, 인스타그램 검색 결과를 크롤링 해보도록 하겠습니다! #install.packages(“RSelenium”) library(“RSelenium”) library(“wdman”) #node.js나 javascript..

signedinfo.com