首页 > 网络程序 > CHINESE-POETRY: 最全中文诗歌古典文集数据库

CHINESE-POETRY: 最全中文诗歌古典文集数据库

时间:2020-11-9    作者:bokewo    分类: 网络程序


简介

Chinese-poetry 可能是全网最全中文是个古典文集数据库了,目前托管在 GitHub 上,数据是 json 格式,方便进行版本管理。该项目截止目前为止收集了互联网上 5.5 万首唐诗、26 万首宋诗和2.1 万首宋词. 唐宋两朝近 1.4 万古诗人, 和两宋时期 1.5K 词人。该仓库贡献最多的是来自 Teambition 的 JackeyGao 和另一位 Python、Java 开发者 animalize。

数据集

该仓库收集的数据集合罗列如下:

  • 全唐诗 json
  • 全宋诗 json
  • 全宋词 ci
  • 五代·花间集 wudai
  • 五代·南唐二主词 wudai
  • 论语 lunyu
  • 诗经 shijing
  • 幽梦影 youmengying
  • 四书五经 sishuwujing
  • 蒙學 mengxue

计划要收集的是:

  • 清代诗词
  • 元曲

数据分析

目前作者对数据集做了一些数据分析,挖掘出了一些有趣的统计数据。

  • 两宋喜欢的词牌名是浣溪沙
CHINESE-POETRY: 最全中文诗歌古典文集数据库
  • 宋词作者作品榜,作品流传下来最多的是辛弃疾
CHINESE-POETRY: 最全中文诗歌古典文集数据库
  • 宋词高频词:宋词中大家最喜欢用的词是东风
CHINESE-POETRY: 最全中文诗歌古典文集数据库
  • 唐诗作者作品榜:唐诗作品流传下来最多的是白居易。
CHINESE-POETRY: 最全中文诗歌古典文集数据库
  • 宋诗作者作品榜:宋诗作品流传下来最多的是陆游。
CHINESE-POETRY: 最全中文诗歌古典文集数据库
  • 宋诗高频词:宋朝诗歌中最常见的词语是"人间"

CHINESE-POETRY: 最全中文诗歌古典文集数据库

  • 唐诗高频词:唐诗中最常见的词语是"何处","人间"也不少。

CHINESE-POETRY: 最全中文诗歌古典文集数据库

应用

作者已经在 README 中例举了几个利用该数据库自动生成古诗词的机器学习项目和几个古诗词鉴赏的项目。

因为该仓库是 MIT 许可,有想法的小伙伴可以利用这个数据库作出不少好玩的应用。

项目地址

chinese-poetry/chinese-poetry github.com

正文完

推荐阅读:

本文最后更新于2020-11-9,已超过3年没有更新,如果文章内容或图片资源失效,请留言反馈,站长会及时处理,谢谢!

分享到:


请遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国有关法律法规

网络程序 CHINESE-POETRY: 最全中文诗歌古典文集数据库
简介 Chinese-poetry 可能是全网最全中文是个古典文集数据库了,目前托管在 GitHub 上,数据是 json 格式,方便进行版本管理。...
扫描二维码阅读原文
前尘影事 www.bokewo.com
生成社交图 ×