如何利用R软件简单处理文本数据？

2026-05-11 10:48:24

1、将要分析的文本文档存在一个目录里。加载程序包tm，利用函数Corpus处理文档。

代码如下：

library(tm)

#读取文件夹名

filename<-"C:/Users/jsb/Desktop/txt"

#语料库,DirSource处理目录

text<-Corpus(DirSource(filename),readerControl = list(language="lat"))

summary(text)

要处理的目录中有两个文档，文档名称和类别。

如何利用R软件简单处理文本数据？

2、读取文档目录后，可以用函数inspect查看文档，查看单个文档要加双括号。

#语料库的提取

inspect(text[1:2])

#提取单个文档

identical(text[[1]],text[["text.txt"]])

text[[1]]

如何利用R软件简单处理文本数据？

3、利用tm_map函数对文本进行一些处理。

#去除空白

text<- tm_map(text, stripWhitespace)

#小写变换

text<-tm_map(text,tolower)

#停止词去除

text<-tm_map(text,removeWords,stopwords("english"))

如何利用R软件简单处理文本数据？

4、wordcloud包中的wordcloud函数绘制词云图。

#词云图

> library(wordcloud)

> wordcloud(text)

如何利用R软件简单处理文本数据？

5、利用DocumentTermMatrix 生成文档关系矩阵，这是建立模型的基础。

#文档关系矩阵

dtm<-DocumentTermMatrix(text)

inspect(dtm[1:2,1:20])

结果中可以看到前两个文档中20个词语出现的频次表。

如何利用R软件简单处理文本数据？

6、从文档关系矩阵出找出我们关心的词。

例如：

#找出出现6次以上的条目

findFreqTerms(dtm,6)

#找到与"program"的相关系数在0.8以上的条目

findAssocs(dtm, "program", 0.8)

如何利用R软件简单处理文本数据？

声明：本网站引用、摘录或转载内容仅供网站访问者交流或参考，不代表本站立场，如存在版权或非法内容，请联系站长删除，联系邮箱：site.kefu@qq.com。

相关推荐

汽车贴膜价格表一般汽车贴膜要多少钱

阅读量：34

英雄联盟手游召唤师技能一览

阅读量：195

支付宝地下室夏日FM怎么玩

阅读量：179

肺癌是我国死亡率最大的恶性肿瘤，癌症仍然是人类的大敌

阅读量：95

不锈钢环保钝化液AJC2001的处理操作方法和细节

阅读量：143

猜你喜欢

猜你喜欢