TODO | Nocater's Blog

[x] Google收录
[x] NexT 6.0 公式解析问题
[] - Latex公式说明

NLP数据集备份

Yelp评论：Yelp，就是美国的“大众点评”，这是他们发布的一个开放数据集，包含超过500万条评论。

20 Newsgroups
从20个网络新闻组中收集的20000条文本数据，可用于文本分析、分类等。
文件大小：61.6 M。ps:数据有点少不到2W。

Billion Words:大型，有统一目标的语言建模数据集。常被用来训练诸如word2vec或Gove的词嵌入表征。

Stanford Sentiment Treebank:标准的情感数据集，在每个句子解析树的结点上带有细腻的情感注解。

亚马逊评论：包含18年来亚马逊上的大约3500万条评论，数据包括产品和用户信息，评级和文本审核。

Netflix PrizeNetflix 发布了他们的电影评级数据集的匿名版；包含 480,000 名用户对 17,770 部电影的 1 亿个评分。首个主要的 Kaggle 风格数据挑战。随着隐私问题的出现，只能提供非正式版。

SogouCS 来自搜狐新闻2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据，提供URL和正文信息。相关教程(搜索关键字：SogouCS 分类):

Text Classification Datasets：一个文本分类数据集，包含8个可用于文本分类的子数据集，样本大小从120K到3.6M，问题范围从2级到14级，数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和

腾讯词向量：Tencent AI Lab Embedding Corpus for Chinese Words and Phrases