当前位置: 首页 > news >正文

新库上线 | CnOpenData中国财经报刊新闻文本数据

一、数据简介

本数据库系统收录了来自国内37家主流财经及综合类报刊电子版的公开新闻文本数据,覆盖站点中文名、发文时间、板块名称、首标题、标题、尾标题、作者、图片、正文等关键字段,提供全面结构化的新闻内容。数据持续实时更新,截至2025年底累计收录新闻量已超过1471万条,为观察中国财经舆论动态、市场信息传播及媒体趋势提供了大规模、可持续的文本资源。

二、数据特点

  • 来源广泛且具有代表性:数据涵盖中国证券报、上海证券报、证券时报、人民日报、证券日报等国内影响力广泛的财经及综合报刊,能够反映主流财经舆论场的核心声音。

  • 时间跨度大,支持长期研究:数据库中包含20家报刊十年以上的连续观测数据,适用于宏观经济、市场周期、政策演变等长时段议题的纵向研究。

  • 实时更新,贴近动态变化:数据更新与各报刊发布保持同步,支持对市场热点、舆情事件、政策发布的即时跟踪与分析。用于自然语言处理、情感分析、主题建模等现代文本分析方法。

三、潜在应用场景

  • 金融市场与舆情分析:研究者可通过标题与正文分析市场热点变迁、投资者情绪波动,也可结合发文时间研究新闻对股价、交易量等市场指标的即时与滞后影响;

  • 政策影响与媒体传播研究:长期数据支持对国家经济政策发布后的媒体报道框架、舆论引导变化进行内容分析,也可用于研究不同报刊在重大财经事件中的报道立场与传播特征;

  • 文本挖掘与计算方法验证:数据库规模大、覆盖领域集中,适合作为训练与测试财经领域文本分类、实体识别、摘要生成等自然语言处理模型的语料库,亦可支持计算社会科学相关方法的实证验证。

CnOpenData中国财经报刊新闻文本数据库基于公开来源系统整理而成,以持续、全面、结构化的方式汇聚中国主流财经新闻内容,兼具宏观时间跨度与微观文本信息,可为学术研究、行业分析、决策支持提供扎实的数据基础。

四、时间区间

报刊名称

起始日期

状态

截至20251119数据量

中国证券报

2005-01-05

实时更新

3197050

上海证券报

2006-04-22

实时更新

2328363

证券时报

2008-06-02

实时更新

2216215

人民日报

1946-05-15

实时更新

1980671

钱江晚报

2006-01-01

实时更新

711112

证券日报

2020-01-02

实时更新

625511

新闻晨报

2012-03-01

实时更新

321933

北京商报

2011-01-04

实时更新

295913

法制晚报

2021-01-01

实时更新

288547

参考消息

1957-03-01

实时更新

261948

长江商报

2010-05-24

实时更新

252900

羊城晚报

2018-01-01

实时更新

248768

北京青年报

2015-01-01

实时更新

235392

深圳商报

2017-03-01

实时更新

172757

经济参考报

2009-11-05

实时更新

167375

每日经济新闻

2008-01-18

实时更新

136476

广州日报

2021-01-01

实时更新

134808

经济观察报

2001-04-16

实时更新

134688

南方日报

2022-01-01

实时更新

130562

中华工商时报

2016-01-04

实时更新

108029

中国工业报

2014-01-06

实时更新

89672

南方都市报

2020-01-01

实时更新

89496

都市快报

2022-01-01

实时更新

89130

第一财经日报

2015-04-01

实时更新

83666

中国经济导报

2012-09-01

实时更新

76009

国际金融报

2014-08-04

实时更新

64698

信息时报

2022-08-30

实时更新

63913

中国消费者报

2010-01-01

实时更新

57621

中国财经报

2018-01-10

实时更新

42364

投资快报

2020-01-02

实时更新

37855

金陵晚报

2024-01-02

实时更新

18806

中国经营报

2022-01-03

实时更新

16473

中国经济周刊

2012-01-02

实时更新

13441

中国企业报

2011-04-01

实时更新

9554

中国贸易报

2011-01-04

实时更新

7281

21世纪经济报道

2025-01-03

实时更新

3325

重庆商报

2023-01-06

实时更新

2671

五、字段展示

中国财经新闻报纸文本数据字段表

站点中文名

发文时间

板块名称

首标题

标题

尾标题

作者

图片

正文

六、样本数据

站点中文名

发文时间

板块名称

首标题

标题

尾标题

作者

图片

正文

证券时报

2022/1/13

第A003版专栏

应防范证券服务业备案制的副作用

证券时报

[{'ha~:''}]

【锦心绣口~处罚,……

证券时报

2022/1/13

第A004版聚焦资本市场“新地理”

医疗器械产业培育难?“苏州现象”这样破题

证券时报

[{'ha~:''}]

本版供图:~持发展……

证券时报

2022/1/13

第A008版公司

同城配送商业模式趋稳玩家抢滩千亿市场却难分杯羹

证券时报

[{'ha~:''}]

图虫创意/~在接受……

证券时报

2022/1/13

第A001版头 版(今日116版)

[报眼]星辉环材

证券时报

[{'ha~:''}]

2022-~18.……

证券时报

2022/1/13

第A001版头 版(今日116版)

同城配送商业模式趋稳玩家抢滩千亿市场却难分杯羹

证券时报

[{'ha~:''}]

数据来源:~是闪送……

证券时报

2022/1/14

第A002版综合

鸿道投资执行董事、投资总监孙建冬:

潮水退去看好电网设备投资机会

证券时报

[{'ha~:''}]

证券时报记~限公司……

证券日报

2020/1/2

B1金融机构

“南方优选成长”9年投资秘笈:在“富矿”中找好生意

王思文

[{'ha~:''}]

“南方优选~,上证……

证券日报

2020/1/2

A1头版

2020年1月1日零点起中国487个省界收费站全部取消

证券日报

[{'ha~:''}]

2020年~表示,……

证券日报

2020/1/3

B1金融机构

券商IPO承销业务“年末考”放榜:31家过会率100%招商证券“夺魁”

王思文

[{'ha~:''}]

券商IPO~在此背……

证券日报

2020/1/3

B2金融市场

中国通信工业协会区块链专委会常务副主任尚堃:

“区块链+文化”具有广泛落地场景知识产权维权服务将具商业价值

邢萌

[{'ha~:''}]

中国通信工~业内普……

七、相关文献

  • 姜富伟、刘雨旻、孟令超,2024:《大语言模型、文本情绪与金融市场》,《管理世界》第8期。

  • 范小云、王业东、王道平等,2022:《不同来源金融文本信息含量的异质性分析——基于混合式文本情绪测度方法》,《管理世界》第10期。

  • 许雪晨、田侃,2021:《一种基于金融文本情感分析的股票指数预测新方法》,《数量经济技术经济研究》第12期。

  • 张宗新、吴钊颖,2021:《媒体情绪传染与分析师乐观偏差——基于机器学习文本分析方法的经验证据》,《管理世界》第1期。

八、数据更新频率

实时更新

http://www.cnnetsun.cn/news/112107.html

相关文章:

  • 问了 3 个博士,导师不说,但目前最新论文卡人的已经不是知网查重
  • CST设计:可重构超表面宽带窄带可切换吸收与多波束技术
  • ai智能搜索文献:高效精准的学术资源检索新工具与应用研究
  • 英文文献的高效检索与阅读策略研究
  • 万字长文!Agent及其主流框架终极指南(附对比图),好Agent的标准:自己想、自己干、自己复盘!
  • 打造专属问答社区,开源系统助力内容创业新风口
  • Apache Impala为啥TBDS、华为MRS弃用?为什么不能做到无缝切换平缓迁移
  • 从开发到上线:智能Agent的Docker部署全链路实践(含YAML模板)
  • 智能连接与自动化引擎的全能表单系统,重新定义数据收集与业务流程的协同
  • 如何彻底解决企业级数据流程编排难题:Apache DolphinScheduler完整指南
  • 深度学习框架生态竞争格局:从Stable Diffusion WebUI Forge看技术选型逻辑
  • better-sqlite3深度解析:Node.js数据库操作的性能革命
  • 终极AI平台wgai:零门槛构建国产化智能识别系统
  • 基于VUE的企业协同管理系统 [VUE]-计算机毕业设计源码+LW文档
  • 如何快速使用bandcamp-dl:命令行音乐下载工具的完整教程
  • 【Excel VBA 编程】第61讲:两种方法驾驭文本处理猛兽
  • 探索金领冠珍护源初的纯净世界:2025年健康奶粉新篇章
  • Solon 不依赖 Java EE 是其最有价值的设计!
  • MegSpot:专业级图片视频对比工具全方位使用指南
  • LaMa图像修复模型性能优化实战:从PyTorch到TensorRT的完整加速方案
  • WAN2.2视频生成革命:如何用4步采样重新定义创作效率?
  • 终极Headscale配置指南:从零到精通
  • Sapiens视觉系统如何实现工业级稳定性:5个关键技术解析
  • so-vits-svc F0预测器实战指南:从问题诊断到性能调优
  • RapidJSON性能飞跃:揭秘C++ JSON解析的极限优化方案
  • 高效ESP32文件系统管理:专业级SPIFFS部署实战指南
  • linpack测试HPL.dat配置文件
  • sist2:构建高效文件检索系统的开源利器
  • 技术视角深析:2025年TOP5 AI种草营销服务商的架构设计与工程实现
  • Citra模拟器终极解决方案:5步快速修复常见问题指南