TODO

[x] Google收录
[x] NexT 6.0 公式解析问题
[] - Latex公式说明

NLP数据集备份

Yelp评论:Yelp,就是美国的“大众点评”,这是他们发布的一个开放数据集,包含超过500万条评论。

Blogger Corpus:收集了来自http://blogger.com的681,288篇博文,每篇博文至少包含200个常用英语单词。

20 Newsgroups
从20个网络新闻组中收集的20000条文本数据,可用于文本分析、分类等。
文件大小:61.6 M。ps:数据有点少不到2W。

Billion Words:大型,有统一目标的语言建模数据集。常被用来训练诸如word2vec或Gove的词嵌入表征。

Stanford Sentiment Treebank:标准的情感数据集,在每个句子解析树的结点上带有细腻的情感注解。

亚马逊评论:包含18年来亚马逊上的大约3500万条评论,数据包括产品和用户信息,评级和文本审核。

Netflix PrizeNetflix 发布了他们的电影评级数据集的匿名版;包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现,只能提供非正式版。

SogouCS 来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息。相关教程(搜索关键字:SogouCS 分类):

Text Classification Datasets:一个文本分类数据集,包含8个可用于文本分类的子数据集,样本大小从120K到3.6M,问题范围从2级到14级,数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和

THUCNews中文文本数据集: 1.56GB 2016-01-25 数据集下载

腾讯词向量:Tencent AI Lab Embedding Corpus for Chinese Words and Phrases