机器学习——fetch_20newsgroups离线下载
1、下载fetch_20newsgroups数据集。
2、按‘windows’加‘E’快捷键打开资源管理界面。
3、打开C盘。
4、选择'用户'文件夹。
5、选择'Administrator'文件夹。
6、选择'scikit_learn_data'文件夹。
7、首次打开后是个空白文件夹。
8、打开此文件夹后,回到Jupyter下,导入相应模块。
9、运行 fetch_20newsgroups(subset='all')语句,会自动在上面打开的文件夹中创建一个文件夹。
10、自动创建的创建文件夹。
11、打开创建的文件夹。
12、将下载好的数据集,复制到此文件夹中。
1、根据自己安装Anaconda时选择的路径,打开安装文件夹目录。
2、选择'Lib'文件夹。
3、选择'site-packages'文件夹。
4、选择'sklearn'文件夹。
5、选择'datasets'文件夹。
6、打开spyder软件。
7、将'datasets'文件夹下的'twenty_newsgroups.py'拖动到spyder中。
8、找到‘download_20newsgroups’函数。
9、下载语句部分如图示。
10、解压语句部分如图示。
11、由于已经自己下载好数据集,因此需要注释掉下载数据集的代码。
12、将刚刚存放的数据集的文件目录存入'archive_path'变量。
13、修改完毕后并保存。
14、再次运行 fetch_20newsgroups(subset='all')语句,解压下载的数据集文件。
15、执行过程中,会新建两个文件。
16、解压完成后,会自动删除压缩文件。
17、接着会自动删除刚刚生成的两个文件夹。
18、最终只剩下一个后缀名为'pkz'的文件。
19、到此为止fetch_20newsgroups数据集添加完成。
20、获取训练集和测试集数据。
21、调用数据效果如下。