博客
关于我
今日GitHub热榜第一:最全中华古诗词数据库,收录30多万诗词
阅读量:265 次
发布时间:2019-03-01

本文共 834 字,大约阅读时间需要 2 分钟。

乾明 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

收录5.5万首唐诗,超过28万首宋词,还囊括了诗经、论语、蒙学等……

这个名为“chinese-poetry”、号称“最全中文诗歌古典文集数据库”的项目,今日登顶GitHub热榜第一。

截止发稿,这一项目已获得近2.5万标星,Fork超过4600,受欢迎度可见一斑。

项目发起者名为Jackey,在Teambition从事运维自动化工作。他解释了为什么要做这个仓库:

从某种意义上来说,这些庞大的文集离我们是有一定距离的。而电子版方便拷贝,所以此开源数据库诞生了。此数据库通过 JSON 格式分发,可以让你很方便的开始你的项目。

10大数据集

整个项目最核心的内容,就是数据集了。

目前,仓库中一共有10个数据集,分别是:全唐诗、全宋诗、全宋词、五代·花间集、五代·南唐二主词、论语、诗经、幽梦影、四书五经、蒙学。

这些数据,都来自互联网。如何采集的?项目发起者也分享了全宋词爬取过程及数据分析。

为什么没有古诗?他也给出了解释,古诗采集没有记录过程,因为古诗数据庞大,目标网站有限制,采集过程经常中断超过了一个星期。

围绕着数据库,他也进行了一个初步的词频分析:

但这些数据集的应用,远远不止于此。

8大案例展示

在项目中,作者也放上了使用数据集的应用案例。

有基于浏览器的诗词网站,有安卓版的应用“离线全唐诗”,有简体唐诗生成(char-RNN),也诗词桌面和相关小程序等等。

而且这些项目,也大都在GitHub上开源了。

如果你有兴趣,可以收好传送门:

https://github.com/chinese-poetry/chinese-poetry

AI内参|把握AI发展新机遇

拓展优质人脉,获取最新AI资讯&论文教程,欢迎加入AI内参社群一起学习~

跟大咖交流 | 进入AI社群

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

转载地址:http://hpxt.baihongyu.com/

你可能感兴趣的文章
mysql 常见问题
查看>>
MYSQL 幻读(Phantom Problem)不可重复读
查看>>
mysql 往字段后面加字符串
查看>>
mysql 快照读 幻读_innodb当前读 与 快照读 and rr级别是否真正避免了幻读
查看>>
MySQL 快速创建千万级测试数据
查看>>
mysql 快速自增假数据, 新增假数据,mysql自增假数据
查看>>
MySql 手动执行主从备份
查看>>
Mysql 批量修改四种方式效率对比(一)
查看>>
Mysql 报错 Field 'id' doesn't have a default value
查看>>
MySQL 报错:Duplicate entry 'xxx' for key 'UNIQ_XXXX'
查看>>
Mysql 拼接多个字段作为查询条件查询方法
查看>>
mysql 排序id_mysql如何按特定id排序
查看>>
Mysql 提示:Communication link failure
查看>>
mysql 插入是否成功_PDO mysql:如何知道插入是否成功
查看>>
Mysql 数据库InnoDB存储引擎中主要组件的刷新清理条件:脏页、RedoLog重做日志、Insert Buffer或ChangeBuffer、Undo Log
查看>>
mysql 数据库中 count(*),count(1),count(列名)区别和效率问题
查看>>
mysql 数据库备份及ibdata1的瘦身
查看>>
MySQL 数据库备份种类以及常用备份工具汇总
查看>>
mysql 数据库存储引擎怎么选择?快来看看性能测试吧
查看>>
MySQL 数据库操作指南:学习如何使用 Python 进行增删改查操作
查看>>