一、 数据获取与整理 1. 获取 搜狗实验室 我下载的是精简版(一个月数据, 437MB) 与 完整版(711MB) 注意:因为我的机器硬件所限,我把我整理出的类别文件删除一些,防止引起 python 的内存错误。 [图片] 2. 整理 ..

  注意:因为我的机器硬件所限,我把我整理出的类别文件删除一些,恒煊娱乐防止引起 python 的内存错误。

  思路是利用 URL 到类别的映射提取出对应类别的正文文本内容写入到对应类别的文件夹中,文件标题为新闻标题,内容为正文文本。

  利用准确率与召回率 计算 F1-SCORE (存疑,这样写正确么? 希望有前辈看到给我发封电子邮件 )

  机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

  我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。