text (string)	meta (string)
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"265b07f93cdf(...TRUNCATED)	"{\"文件名\": \"002534_2021.txt\", \"是否待查文件\": false, \"是否重复文件\": false, (...TRUNCATED)
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED)	"{\"文件名\": \"2020/300682_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED)
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED)	"{\"文件名\": \"2020/002985_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED)
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED)	"{\"文件名\": \"2020/000528_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED)
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED)	"{\"文件名\": \"2020/600272_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED)
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED)	"{\"文件名\": \"2020/002717_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED)
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED)	"{\"文件名\": \"2020/688218_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED)
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED)	"{\"文件名\": \"2020/002328_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED)
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED)	"{\"文件名\": \"2020/002703_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED)
"[{\"行号\": 0, \"是否重复\": false, \"是否跨文件重复\": false, \"md5\": \"84aaad904d27(...TRUNCATED)	"{\"文件名\": \"2020/688108_2020.txt\", \"是否待查文件\": false, \"是否重复文件\": fa(...TRUNCATED)

Dataset Card for MNBVC

数据集介绍

中文互联网上最古老最神秘(没有之一)的里屋社区于2023.1.1庄重宣布:

在英明神武的里屋管子带领下，决心发挥社区所长(哪都长)，帮助开源社区长期更新一份最大的中文互联网语料集。

Huggingface上的MNBVC数据集在逐渐更新中，请到https://github.com/esbatmop/MNBVC 获取未完成清洗的更多数据。

可以使用如下脚本加载：

from datasets import load_dataset
dataset = load_dataset("liwu/MNBVC", 'law_judgement', split='train', streaming=True)

next(iter(dataset))  # get the first line

数据子集

MNBVC数据集包含数个子集：

law_judgement: 来自法律文书的文本。
gov_xuexiqiangguo: 来自学习强国的文本。
gov_report: 来自政府工作报告的文本。
co_ann_report: 企业年报文本。
code_metadata: 代码元数据。
qa_zhihu: 来自知乎的问答数据。
qa_wikihow: 来自wikihow的问答数据。
qa_mfa: 外交部问答数据。
news_peoples_daily: 来自人民日报的文本数据。
wikipedia: 来自维基百科的文本数据。

数据格式

目前MNBVC数据集包含如下几类数据：

文本数据

文本数据使用如下格式组织：

{
    "文件名": datasets.Value("string"),
    "是否待查文件": datasets.Value("bool"),
    "是否重复文件": datasets.Value("bool"),
    "文件大小": datasets.Value("int32"),
    "simhash": datasets.Value("uint64"),
    "最长段落长度": datasets.Value("int32"),
    "段落数": datasets.Value("int32"),
    "去重段落数": datasets.Value("int32"),
    "低质量段落数": datasets.Value("int32"),
    "段落": [
        datasets.Features(
            {
                "行号": datasets.Value("int32"),
                "是否重复": datasets.Value("bool"),
                "是否跨文件重复": datasets.Value("bool"),
                "md5": datasets.Value("string"),
                "内容": datasets.Value("string"),
            }
        )
    ]
}

问答数据

问答数据使用如下格式组织：

{
    "id": datasets.Value("int32"),
    "问": datasets.Value("string"),
    "答": datasets.Value("string"),
    "来源": datasets.Value("string"),
    "元数据": {
        "create_time": datasets.Value("string"),
        "问题明细": datasets.Value("string"),
        "回答明细": datasets.Value("string"),
        "扩展字段": datasets.Value("string"),
    }
}

项目早期所上传的数据使用如下格式，以后这一格式会被废弃，相应数据也会重新上传：

{
    "text": datasets.Value("string"),
    "meta": datasets.Value("string")
}

Contributions

Thanks to the Liwu community for constructing this dataset. Thanks to silver for adding this dataset.

Downloads last month: 548

Edit dataset card

Evaluate models HF Leaderboard

Size of the auto-converted Parquet files (First 5GB):

13.1 GB

Number of rows (First 5GB):

5,497,093