假设有一份文本数据如下,数据量很大,现在要对整个语料库进行文本分析,category代表新闻种类,theme代表新闻主题,URL代表新闻链接地址,content代表新闻主题内容

  停用词:在content这一列,在数据量很大的情况,很容易发现某些似乎与新闻本身意义不大的词大量出现,而我们就把这些在语料库中大量出现但是又没啥大用的词叫做停用词,在数据集链接中包含一份常见的停用词,如下所示:

  TF-IDF:用于关键词提取。比如在一篇名叫《中国的蜜蜂养殖》这篇文章中进行词频(Term Frequency,缩写为TF)统计出现次数最多的词是“的”、“是”、“在”等这一类最常用的词(停用词,一般来说是要去掉的),在删除掉停用词过后我们发现“中国”、“蜜蜂”、“养殖”这三个词的出现次数一样多,那么这三个词的重要性是一样的吗?一般来说中国是很常见的词,相对而言,蜜蜂和养殖不那么常见。这时就需要引入一个叫做逆文档频率来进行衡量。逆文档频率(Inverse Document Frequency,缩写为IDF)如果某个词相比较于整个语料库来说比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,那它正是我们所需要的关键词。恒煊娱乐app

  TF-IDF = 词频(TF) * 逆文档频率(IDF)。还是在《中国的蜜蜂养殖》这篇文章中:假定该文长度为1000个词,中国、蜜蜂、养殖各出现20次,则这三个词的词频(TF)都为0.02。搜索Google发现,包含的字的网页共有250亿张,假定这就是中文网页总数(也就是语料库)。包含中国的网页共有62.3亿张,包含蜜蜂的网页为0.484亿张,包含养殖的网页为0.973亿张。

  可以看出蜜蜂和养殖的TF-IDF值比中国这个词大,那么这篇文章的关键词重要性依次为蜜蜂、养殖和中国。

  文本相似度:假设有如下两个句子A、B,我们该怎么判断这两个句子的相似度呢

  现在我们手里一份新闻数据,数据里面包含新闻的内容以及新闻的种类等等,我们要做的就是对新闻进行一个分类任务,比如说汽车类时尚类等等。

  司CEO陆兆禧将会出任上述职务,向集团CEO马云直接汇报。>菹ぃ和6月初的首席风险官职务任命相同,首席数据官亦为阿

  里巴巴集团在完成与雅虎股权谈判,推进“onecompany”目标后,在集团决策层面新增的管理岗位。恒煊app0⒗锛团昨日表示

  可以发现数据里面包含很多无用的词汇,所以我们需要对这些数据进行清洗,就是删除掉里面包含的停用词

  统计all_words每个词的词频,统计这个词频也是为了方便后面的词云展示。