CHINESE-POETRY: 最全中文诗歌古典文集数据库

首页 网络程序 正文

简介

Chinese-poetry 可能是全网最全中文是个古典文集数据库了,目前托管在 GitHub 上,数据是 json 格式,方便进行版本管理。该项目截止目前为止收集了互联网上 5.5 万首唐诗、26 万首宋诗和2.1 万首宋词. 唐宋两朝近 1.4 万古诗人, 和两宋时期 1.5K 词人。该仓库贡献最多的是来自 Teambition 的 JackeyGao 和另一位 Python、Java 开发者 animalize。

数据集

该仓库收集的数据集合罗列如下:

  • 全唐诗 json
  • 全宋诗 json
  • 全宋词 ci
  • 五代·花间集 wudai
  • 五代·南唐二主词 wudai
  • 论语 lunyu
  • 诗经 shijing
  • 幽梦影 youmengying
  • 四书五经 sishuwujing
  • 蒙學 mengxue

计划要收集的是:

  • 清代诗词
  • 元曲

数据分析

目前作者对数据集做了一些数据分析,挖掘出了一些有趣的统计数据。

  • 两宋喜欢的词牌名是浣溪沙
  • 宋词作者作品榜,作品流传下来最多的是辛弃疾
  • 宋词高频词:宋词中大家最喜欢用的词是东风
  • 唐诗作者作品榜:唐诗作品流传下来最多的是白居易。
  • 宋诗作者作品榜:宋诗作品流传下来最多的是陆游。
  • 宋诗高频词:宋朝诗歌中最常见的词语是"人间"

  • 唐诗高频词:唐诗中最常见的词语是"何处","人间"也不少。

应用

作者已经在 README 中例举了几个利用该数据库自动生成古诗词的机器学习项目和几个古诗词鉴赏的项目。

因为该仓库是 MIT 许可,有想法的小伙伴可以利用这个数据库作出不少好玩的应用。

项目地址

chinese-poetry/chinese-poetry github.com

正文完
本文最后更新于2020-11-9,已超过4年没有更新,如果文章内容或图片资源失效,请留言反馈,站长会及时处理,谢谢!
-- 展开阅读全文 --
觅小雪诗意|晚来天欲雪,能饮一杯无?
« 上一篇 11-23
emlog挂载点总汇
下一篇 » 11-08

发表评论

  • 泡泡
  • 阿呆
  • 阿鲁

天气

动态快讯

热门文章

链接

名人名言

真理的旅行,是不用入境证的
法国