text (string) | meta (string) |
---|---|
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"265b07f93cdf(...TRUNCATED) | "{\"文件名\": \"002534_2021.txt\", \"是否待查文件\": false, \"是否重复文件\": false, (...TRUNCATED) |
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED) | "{\"文件名\": \"2020/300682_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED) |
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED) | "{\"文件名\": \"2020/002985_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED) |
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED) | "{\"文件名\": \"2020/000528_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED) |
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED) | "{\"文件名\": \"2020/600272_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED) |
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED) | "{\"文件名\": \"2020/002717_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED) |
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED) | "{\"文件名\": \"2020/688218_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED) |
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED) | "{\"文件名\": \"2020/002328_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED) |
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED) | "{\"文件名\": \"2020/002703_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED) |
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED) | "{\"文件名\": \"2020/688108_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED) |
Dataset Card for MNBVC
数据集介绍
中文互联网上最古老最神秘(没有之一)的里屋社区于2023.1.1庄重宣布:
在英明神武的里屋管子带领下,决心发挥社区所长(哪都长),帮助开源社区长期更新一份最大的中文互联网语料集。
Huggingface上的MNBVC数据集在逐渐更新中,请到https://github.com/esbatmop/MNBVC 获取未完成清洗的更多数据。
可以使用如下脚本加载:
from datasets import load_dataset
dataset = load_dataset("liwu/MNBVC", 'law_judgement', split='train', streaming=True)
next(iter(dataset)) # get the first line
数据子集
MNBVC数据集包含数个子集:
law_judgement
: 来自法律文书的文本。gov_xuexiqiangguo
: 来自学习强国的文本。gov_report
: 来自政府工作报告的文本。co_ann_report
: 企业年报文本。code_metadata
: 代码元数据。qa_zhihu
: 来自知乎的问答数据。qa_wikihow
: 来自wikihow的问答数据。qa_mfa
: 外交部问答数据。news_peoples_daily
: 来自人民日报的文本数据。wikipedia
: 来自维基百科的文本数据。
数据格式
目前MNBVC数据集包含如下几类数据:
文本数据
文本数据使用如下格式组织:
{
"文件名": datasets.Value("string"),
"是否待查文件": datasets.Value("bool"),
"是否重复文件": datasets.Value("bool"),
"文件大小": datasets.Value("int32"),
"simhash": datasets.Value("uint64"),
"最长段落长度": datasets.Value("int32"),
"段落数": datasets.Value("int32"),
"去重段落数": datasets.Value("int32"),
"低质量段落数": datasets.Value("int32"),
"段落": [
datasets.Features(
{
"行号": datasets.Value("int32"),
"是否重复": datasets.Value("bool"),
"是否跨文件重复": datasets.Value("bool"),
"md5": datasets.Value("string"),
"内容": datasets.Value("string"),
}
)
]
}
问答数据
问答数据使用如下格式组织:
{
"id": datasets.Value("int32"),
"问": datasets.Value("string"),
"答": datasets.Value("string"),
"来源": datasets.Value("string"),
"元数据": {
"create_time": datasets.Value("string"),
"问题明细": datasets.Value("string"),
"回答明细": datasets.Value("string"),
"扩展字段": datasets.Value("string"),
}
}
项目早期所上传的数据使用如下格式,以后这一格式会被废弃,相应数据也会重新上传:
{
"text": datasets.Value("string"),
"meta": datasets.Value("string")
}
Contributions
Thanks to the Liwu community for constructing this dataset. Thanks to silver for adding this dataset.
- Downloads last month
- 548