包含两个版本,同学们可以按需选择! 预计36h内完成更新, 结果持续修正!国奖质量 好上手!

🌟高性价比版本参考论文+代码+结果表

🌟一等质量版本参考论文+代码+结果表+替换图片+降重指导

淘宝链接A题:https://item.taobao.com/item.htm?ft=t&id=990443268051

B题https://item.taobao.com/item.htm?ft=t&id=988432155309

交流q群:319369145


摘要

本研究围绕中国A股市场中事件驱动型投资的量化分析展开,旨在通过对政策、监管、公司行为与突发事件等多种市场事件的建模与数据分析,构建一套系统的事件驱动投资策略模型。在过去一年(2024年9月至2025年9月)内,A股市场受多重政策与行业变化影响,事件型交易特征显著,因此本课题对事件影响、收益预测与资产配置进行了系统建模与实证验证。

问题一中,首先对不同类型事件进行了定性分类与量化处理。研究通过提取事件的时间、类别、方向与强度等特征,构建了事件影响的数学描述模型。利用指数衰减与幂律混合核函数对事件的时序影响进行建模,并结合股票历史价格数据分析其在短期内对超额收益的影响。结果显示,不同事件类型对市场反应具有显著差异,其中政策与行业监管类事件的市场驱动力最强,对情绪与资金流向影响明显。

问题二中,基于问题一的事件特征与市场响应结果,建立了事件收益预测模型。研究采用线性回归、岭回归随机森林Gradient Boosting / XGBoost / LightGBM等机器学习方法,以事件强度、行业背景、市场波动率等为输入特征,对未来短期累计收益进行预测。通过时间序列切分与样本外验证,模型的拟合优度(R²)与信息系数(IC)均表现良好,岭回归与随机森林的预测精度最高,表明事件特征对未来收益具有较高解释力。可视化结果显示模型预测值与实际收益呈正相关,验证了事件信号的可预测性。

问题三中,研究将预测结果转化为投资权重,构建了事件驱动投资组合优化模型。该模型以马科维茨均值-方差理论为基础,并引入交易成本与换手惩罚项,形成带约束的均值-方差最优化问题。模型以近端梯度法(Proximal Gradient / FISTA)求解,在动态风险协方差与成本约束下实现最优权重分配。通过对实际市场数据的模拟回测,组合年化收益率达到8%至12%,夏普比约为0.9至1.1,最大回撤控制在10%以内,表明模型在风险控制与收益平衡方面具有良好表现。策略的净值曲线平稳上升,收益分布呈轻度右偏,显示出稳健的事件驱动特征。

本研究实现了“事件信号生成—收益预测—组合优化”的量化闭环。事件驱动型投资策略在政策与宏观预期明确的环境下尤为有效,具有显著的风险调整后收益优势。模型的稳定性验证了事件信号在A股市场中的实际可操作性。

关键词: 事件驱动投资;A股市场;量化模型;均值-方差优化;机器学习;近端梯度算法;风险控制;交易成本;政策冲击;金融数学建模。

目录

摘要

一、赛题背景深度分析

二、问题重述

问题分析

3.1.问题本质与核心挑战

3.2.问题一深度分析:事件分类与数学建模

3.2.1事件特征的数学化表达

3.2.2分类方法选择

3.3.问题二深度分析:价格波动预测建模

3.3.1多因子模型架构

3.3.2预测模型技术路线

3.3.3模型验证与调优

3.4.问题三深度分析:套利策略与风险控制

3.4.1均值-方差优化框架

3.4.2尾部风险控制

3.4.3止损机制设计

模型假设

模型原理

5.1非齐次泊松过程(NHPP)

5.2Hawkes过程(自激过程)

5.3线性回归(OLS)

5.4岭回归(L2正则)

5.5随机森林回归(非线性基线)

5.6事件驱动多资产最优化组合模型(Event-DrivenPortfolio Optimization Model)

5.7近端梯度法(Proximal Gradient Method / FISTA 加速)

问题一模型建立与求解:事件分类与数学特征建模

6.1数据清洗、整合

6.2四类事件的量化分析方法

1)政策驱动类(Policy)

2)行业监管类(Regulation)

3)公司事件类(Corporate)

4)突发事件类(Exogenous)

6.3模型建立

6.3.1参数设定

6.3.2事件特征工程

6.3.3冲击–衰减核(Impact–Decay Kernel)与参数估计

6.3.4事件窗标签(供评估/训练/回测)

6.3.5事件到达过程:非齐次泊松(NHPP)、Hawkes(自激)过程

1非齐次泊松(NHPP)

2Hawkes(自激)过程

6.3.6模型评价与诊断

伪代码

6.4模型求解

1)市场背景与数据面

2)事件特征与强度

3)衰减核参数与类型对比

4)单事件拟合质量与时间结构

5)事件窗标签(收益与超额)

小结

问题二模型建立与求解: 事件收益预测结果分析

7.1参数说明

7.2特征工程

1直接特征(事件层)

2标准化(仅在训练集)

7.3时间防泄露切分与交叉验证

7.4基线预测模型

1线性回归(OLS)

2岭回归(L2
正则)

3随机森林回归(非线性基线)

4GradientBoosting / XGBoost / LightGBM

7.5信号生成与事件级回测

1方向与仓位

2 Top-K选择

3交易成本与成本后收益

4组合累计收益(事件序列)

7.6诊断与稳健性

7.5端到端流程伪代码

7.6模型求解与可视化分析

1.结果分析

2.特征重要性与解释性

3.可视化分析

事件收益曲线与策略表现

稳健性与诊断结果

结果总结

问题三模型建立与求解: 最优化组合模型分析

8.1参数说明

8.2“事件预测”到“标的期望收益”的映射

1事件强度到逐日“期望超额收益冲击”

2事件到标的聚合(当日alpha 预期)

8.3组合优化模型构建

8.4CVaR 风险替代

8.5Kelly/半 Kelly 头寸缩放

8.5执行模型与滑点(Almgren–Chriss )

8.6风险与止盈止损

4.Kelly/降杠杆

8.7模型求解与结果分析

8.7.1关键超参数

8.7.2绩效指标分析

8.7.3可视化分析

1.净值曲线

2.日收益分布

正态性与厚尾

成本影响

4.杠杆与换手

5. Alpha热力/权重热图

6.归因与分层

7.稳健性与灵敏度

模型优缺点与模型推广

9.1.模型优缺点

9.2模型推广

6.1数据清洗、整合

数据范围2024 年 9 月至 2025 年 10 月日频沪深A 股全量行情 为对象,我们需要进行数据清洗—数据整合—可视化的完整流程设计。

清洗阶段围绕“字段统一、类型正确、异常剔除、稳健化处理、交易日对齐”展开。首先应统一各月 CSV 的字段命名与数据类型,将常见中文列名(如“日期/交易日期、代码/证券代码、开盘/最高/最低/收盘、成交量/成交额”)映射为统一的小写英文字段time, code, open, high, low, close, volume, amount,其中time 强制解析为日期或日期时间,code 统一为字符串并保留后缀(如.SH/.SZ),数值列统一为浮点。

为了避免后续聚合出错,去除关键列缺失的记录,尤其是close 缺失的观测。随后进行基本合理性校验,例如剔除非正价格(open/high/low/close <= 0)与区间不一致的行(low ≤ open/close ≤ high 不成立),并对成交量、成交额的负值或极端异常做保守处理(将负值视为缺失并丢弃该行;出现异常的大额“脏点”,在无权威修正信息时建议剔除)。

完成基础过滤后,对同一股票按时间排序并计算日收益率ret = close.pct_change();考虑到A 股存在涨跌停、停复牌、单日大幅跳空等现象,直接使用原始 ret 可能导致后续拟合不稳定,建议在全市场维度对ret 做轻度winsorize(如截取 1% 与 99% 分位),得到稳健收益 ret_clip。这种轻量稳健化既能缓和极端值对参数估计的冲击,又不至于过度平滑真实波动结构。存在因子或衍生指标(例如成交额对数、流动性代理等),此时一并计算并在明细表中保留,以便后续筛股与分层。

清洗的最后一步是构建“交易日索引”。由于事件研究与衰减核拟合需使用“交易日步长”而非自然日,建议从清洗后的明细生成去重且有序的交易日日历,作为统一的对齐轴。节假日与周末自然日将被自动跳过,从而避免窗口内“空档日”对累计收益或核拟合带来的偏差。

整合阶段的目标是把多月数据拼接成一张结构化、可高效重用的全样本。将所有存在的月度CSV 读入、按上述清洗规则处理后纵向合并;然后进行全样本层面的复核与统计,包括股票覆盖数、时间覆盖区间、每股有效交易日分布、缺失收益比例、全市场收益分布与尾部比例等。根据数据质量报告,记录清洗前总行数、各类规则剔除的行数、收益winsorize 的阈值与影响比例、极端价格/量额的行数与股票数覆盖等。

在明细表层面,保留以下字段:time, code, open, high, low, close, volume, amount, ret, ret_clip。这些是后续横截面聚合、事件窗计算与权重构建的基本要素。为了降低后续重复计算的成本,可以同时输出若干常用的按日聚合数据,包括“全市场等权日收益”“成交额加权日收益”“行业或板块分组的日收益”,并将其与交易日索引一并缓存。

6.2四类事件的量化分析方法

在问题一中,我们要将题目中提供的 四类事件(政策驱动、行业监管、公司事件、突发事件) 从定性描述转化为可量化的结构化数据,并设计可计算的指标体系,使事件能被统一纳入模型分析框架。以下内容详细说明了每一类事件如何量化、如何构造指标、以及如何从文字信息生成表格化数据。

所有事件的量化表格遵循统一的数据结构,每条事件是一行,字段如下:

字段名

含义

类型

说明

event_id

事件编号

str

自定义唯一标识,如 E_POLICY_001

event_time

事件日期

date

选取最接近真实影响的交易日(或公告日)

event_type

事件类别

str

取值:policy / regulation / corporate / exogenous

dir

方向

int

利多 = +1,利空 = -1,中性 = 0

codes

受影响标的

str

以分号分隔的股票代码列表

sentiment

市场情感

float

来源于文本正负倾向评分或人工评估([-1,1])

source_cred

信息可信度

float

按来源(官方公告 > 主流媒体 > 传闻)赋 0~1

expected_move

市场预期方向幅度

float

单位为日收益的预期(0.005 ≈ +0.5%)

note

描述摘要

str

对事件原文的简述

breadth

广度指标

float

涉及股票数量或成交额总和(后期计算)

surprise

惊奇度指标

float

事件日超额收益绝对偏差(后期计算)

imp

综合强度

float

情感、惊奇度、可信度、广度加权(后期计算)

在原始表格阶段,前 9 列由人工或自然语言分析提取;后三列通过数据模型计算得出。

下面针对四类事件进行量化逻辑与特征设计

1)政策驱动类(Policy

特征来源:宏观政策、产业扶持、会议精神等;通常带来预期改善与情绪共振。

量化要点:

·方向 (dir):依据政策导向。扶持/利好设 +1,限制/收紧设 -1;

·情感 (sentiment):从媒体报道和舆情语料中提取正负倾向。若原文为“支持”“鼓励”“突破”,则 > 0.5;

·可信度 (source_cred):中央/部委文件 = 1.0,地方政府/协会通知 ≈ 0.8,媒体预测 ≈ 0.6;

·预期幅度 (expected_move):依据历史同类政策的短期涨幅均值设定,如 0.004~0.008;

·受影响股票 (codes):选取政策指向行业中的龙头与 ETF;

·后期量化:广度以行业内标的成交额总和度量;惊奇度为事件日行业平均超额收益。

在得到表格后,所有事件按统一的数理框架计算指标:

惊奇度(Surprise)


 

广度(Breadth)


 

强度(Impact Score)


 

冲击–衰减核拟合


 

通过这些公式,每个事件的冲击幅度(β₀)与持续性(τ₁, γ, w₁)可定量化,最终形成表格化、可回归、可预测的“事件-市场反应”数据集。

6.3模型建立

6.3.1 参数设定

事件集合 
。每个事件 
 的核心字段:


 

o
:首次披露/生效日;
:受影响证券集合(股票/ETF);

o

o
(利空/中性/利多);
(文本/舆情情感);

o
(信息源可信度);
(一致预期的日度幅度,缺省视为0)。

·
:标的 
 的日收益;
:市场基准收益(等权或成交额加权)。

·事件窗 
,常用 
 交易日。

事件分类体系(标签体系)四大一级类(可扩展二级):


 

·先验半衰期(用于冲击核初始化):


 

(单位:交易日;可用数据自适应更新)

6.3.2事件特征工程

事件特征工程包含强度、广度、惊奇度、可信度、方向

1 广度(Breadth)

以事件日成交额或覆盖面衡量:


 

2 惊奇度(Surprise)

 超额收益偏离预期 衡量: