包含两个版本,同学们可以按需选择! 预计36h内完成更新, 结果持续修正!国奖质量 好上手!
🌟高性价比版本参考论文+代码+结果表
🌟一等质量版本参考论文+代码+结果表+替换图片+降重指导
淘宝链接A题:https://item.taobao.com/item.htm?ft=t&id=990443268051

B题:https://item.taobao.com/item.htm?ft=t&id=988432155309

交流q群:319369145


摘要
本研究围绕中国A股市场中事件驱动型投资的量化分析展开,旨在通过对政策、监管、公司行为与突发事件等多种市场事件的建模与数据分析,构建一套系统的事件驱动投资策略模型。在过去一年(2024年9月至2025年9月)内,A股市场受多重政策与行业变化影响,事件型交易特征显著,因此本课题对事件影响、收益预测与资产配置进行了系统建模与实证验证。
在问题一中,首先对不同类型事件进行了定性分类与量化处理。研究通过提取事件的时间、类别、方向与强度等特征,构建了事件影响的数学描述模型。利用指数衰减与幂律混合核函数对事件的时序影响进行建模,并结合股票历史价格数据分析其在短期内对超额收益的影响。结果显示,不同事件类型对市场反应具有显著差异,其中政策与行业监管类事件的市场驱动力最强,对情绪与资金流向影响明显。
在问题二中,基于问题一的事件特征与市场响应结果,建立了事件收益预测模型。研究采用线性回归、岭回归、随机森林、Gradient Boosting / XGBoost / LightGBM等机器学习方法,以事件强度、行业背景、市场波动率等为输入特征,对未来短期累计收益进行预测。通过时间序列切分与样本外验证,模型的拟合优度(R²)与信息系数(IC)均表现良好,岭回归与随机森林的预测精度最高,表明事件特征对未来收益具有较高解释力。可视化结果显示模型预测值与实际收益呈正相关,验证了事件信号的可预测性。
在问题三中,研究将预测结果转化为投资权重,构建了事件驱动投资组合优化模型。该模型以马科维茨均值-方差理论为基础,并引入交易成本与换手惩罚项,形成带约束的均值-方差最优化问题。模型以近端梯度法(Proximal Gradient / FISTA)求解,在动态风险协方差与成本约束下实现最优权重分配。通过对实际市场数据的模拟回测,组合年化收益率达到8%至12%,夏普比约为0.9至1.1,最大回撤控制在10%以内,表明模型在风险控制与收益平衡方面具有良好表现。策略的净值曲线平稳上升,收益分布呈轻度右偏,显示出稳健的事件驱动特征。
本研究实现了“事件信号生成—收益预测—组合优化”的量化闭环。事件驱动型投资策略在政策与宏观预期明确的环境下尤为有效,具有显著的风险调整后收益优势。模型的稳定性验证了事件信号在A股市场中的实际可操作性。
关键词: 事件驱动投资;A股市场;量化模型;均值-方差优化;机器学习;近端梯度算法;风险控制;交易成本;政策冲击;金融数学建模。
摘要
一、赛题背景深度分析
二、问题重述
三、问题分析
3.1.问题本质与核心挑战
3.2.问题一深度分析:事件分类与数学建模
3.2.1事件特征的数学化表达
3.2.2分类方法选择
3.3.问题二深度分析:价格波动预测建模
3.3.1多因子模型架构
3.3.2预测模型技术路线
3.3.3模型验证与调优
3.4.问题三深度分析:套利策略与风险控制
3.4.1均值-方差优化框架
3.4.2尾部风险控制
3.4.3止损机制设计
四、模型假设
五、模型原理
5.1非齐次泊松过程(NHPP)
5.2Hawkes过程(自激过程)
5.3线性回归(OLS)
5.4岭回归(L2正则)
5.5随机森林回归(非线性基线)
5.6事件驱动多资产最优化组合模型(Event-DrivenPortfolio Optimization Model)
5.7近端梯度法(Proximal Gradient Method / FISTA 加速)
六、问题一模型建立与求解:事件分类与数学特征建模
6.1数据清洗、整合
6.2四类事件的量化分析方法
(1)政策驱动类(Policy)
(2)行业监管类(Regulation)
(3)公司事件类(Corporate)
(4)突发事件类(Exogenous)
6.3模型建立
6.3.1参数设定
6.3.2事件特征工程
6.3.3冲击–衰减核(Impact–Decay Kernel)与参数估计
6.3.4事件窗标签(供评估/训练/回测)
6.3.5事件到达过程:非齐次泊松(NHPP)、Hawkes(自激)过程
1非齐次泊松(NHPP)
2Hawkes(自激)过程
6.3.6模型评价与诊断
伪代码
6.4模型求解
1)市场背景与数据面
2)事件特征与强度
3)衰减核参数与类型对比
4)单事件拟合质量与时间结构
5)事件窗标签(收益与超额)
小结
七、问题二模型建立与求解: 事件收益预测结果分析
7.1参数说明
7.2特征工程
1直接特征(事件层)
2标准化(仅在训练集)
7.3时间防泄露切分与交叉验证
7.4基线预测模型
1线性回归(OLS)
2岭回归(L2
正则)
3随机森林回归(非线性基线)
4GradientBoosting / XGBoost / LightGBM
7.5信号生成与事件级回测
1方向与仓位
2 Top-K选择
3交易成本与成本后收益
4组合累计收益(事件序列)
7.6诊断与稳健性
7.5端到端流程伪代码
7.6模型求解与可视化分析
1.结果分析
2.特征重要性与解释性
3.可视化分析
事件收益曲线与策略表现
稳健性与诊断结果
结果总结
八、问题三模型建立与求解: 最优化组合模型分析
8.1参数说明
8.2由“事件预测”到“标的期望收益”的映射
1事件强度到逐日“期望超额收益冲击”
2事件到标的聚合(当日alpha 预期)
8.3组合优化模型构建
8.4CVaR 风险替代
8.5Kelly/半 Kelly 头寸缩放
8.5执行模型与滑点(Almgren–Chriss )
8.6风险与止盈止损
4.Kelly/降杠杆
8.7模型求解与结果分析
8.7.1关键超参数
8.7.2绩效指标分析
8.7.3可视化分析
1.净值曲线
2.日收益分布
正态性与厚尾
成本影响
4.杠杆与换手
5. Alpha热力/权重热图
6.归因与分层
7.稳健性与灵敏度
九、模型优缺点与模型推广
9.1.模型优缺点
9.2模型推广





6.1数据清洗、整合
数据范围2024 年 9 月至 2025 年 10 月的日频沪深A 股全量行情 作为对象,我们需要进行数据清洗—数据整合—可视化的完整流程设计。
清洗阶段围绕“字段统一、类型正确、异常剔除、稳健化处理、交易日对齐”展开。首先应统一各月 CSV 的字段命名与数据类型,将常见中文列名(如“日期/交易日期、代码/证券代码、开盘/最高/最低/收盘、成交量/成交额”)映射为统一的小写英文字段time, code, open, high, low, close, volume, amount,其中time 强制解析为日期或日期时间,code 统一为字符串并保留后缀(如.SH/.SZ),数值列统一为浮点。
为了避免后续聚合出错,去除关键列缺失的记录,尤其是close 缺失的观测。随后进行基本合理性校验,例如剔除非正价格(open/high/low/close <= 0)与区间不一致的行(low ≤ open/close ≤ high 不成立),并对成交量、成交额的负值或极端异常做保守处理(将负值视为缺失并丢弃该行;对出现异常的大额“脏点”,在无权威修正信息时建议剔除)。
完成基础过滤后,对同一股票按时间排序并计算日收益率ret = close.pct_change();考虑到A 股存在涨跌停、停复牌、单日大幅跳空等现象,直接使用原始 ret 可能导致后续拟合不稳定,建议在全市场维度对ret 做轻度winsorize(如截取 1% 与 99% 分位),得到稳健收益 ret_clip。这种轻量稳健化既能缓和极端值对参数估计的冲击,又不至于过度平滑真实波动结构。对存在因子或衍生指标(例如成交额对数、流动性代理等),此时一并计算并在明细表中保留,以便后续筛股与分层。
清洗的最后一步是构建“交易日索引”。由于事件研究与衰减核拟合需使用“交易日步长”而非自然日,建议从清洗后的明细生成去重且有序的交易日日历,作为统一的对齐轴。节假日与周末自然日将被自动跳过,从而避免窗口内“空档日”对累计收益或核拟合带来的偏差。
整合阶段的目标是把多月数据拼接成一张结构化、可高效重用的全样本。将所有存在的月度CSV 读入、按上述清洗规则处理后纵向合并;然后进行全样本层面的复核与统计,包括股票覆盖数、时间覆盖区间、每股有效交易日分布、缺失收益比例、全市场收益分布与尾部比例等。根据数据质量报告,记录清洗前总行数、各类规则剔除的行数、收益winsorize 的阈值与影响比例、极端价格/量额的行数与股票数覆盖等。
在明细表层面,保留以下字段:time, code, open, high, low, close, volume, amount, ret, ret_clip。这些是后续横截面聚合、事件窗计算与权重构建的基本要素。为了降低后续重复计算的成本,可以同时输出若干常用的按日聚合数据,包括“全市场等权日收益”“成交额加权日收益”“行业或板块分组的日收益”,并将其与交易日索引一并缓存。
6.2四类事件的量化分析方法
在问题一中,我们要将题目中提供的 四类事件(政策驱动、行业监管、公司事件、突发事件) 从定性描述转化为可量化的结构化数据,并设计可计算的指标体系,使事件能被统一纳入模型分析框架。以下内容详细说明了每一类事件如何量化、如何构造指标、以及如何从文字信息生成表格化数据。
所有事件的量化表格遵循统一的数据结构,每条事件是一行,字段如下:
字段名 | 含义 | 类型 | 说明 |
event_id | 事件编号 | str | 自定义唯一标识,如 E_POLICY_001 |
event_time | 事件日期 | date | 选取最接近真实影响的交易日(或公告日) |
event_type | 事件类别 | str | 取值:policy / regulation / corporate / exogenous |
dir | 方向 | int | 利多 = +1,利空 = -1,中性 = 0 |
codes | 受影响标的 | str | 以分号分隔的股票代码列表 |
sentiment | 市场情感 | float | 来源于文本正负倾向评分或人工评估([-1,1]) |
source_cred | 信息可信度 | float | 按来源(官方公告 > 主流媒体 > 传闻)赋 0~1 |
expected_move | 市场预期方向幅度 | float | 单位为日收益的预期(0.005 ≈ +0.5%) |
note | 描述摘要 | str | 对事件原文的简述 |
breadth | 广度指标 | float | 涉及股票数量或成交额总和(后期计算) |
surprise | 惊奇度指标 | float | 事件日超额收益绝对偏差(后期计算) |
imp | 综合强度 | float | 情感、惊奇度、可信度、广度加权(后期计算) |
在原始表格阶段,前 9 列由人工或自然语言分析提取;后三列通过数据模型计算得出。
下面针对四类事件进行量化逻辑与特征设计
(1)政策驱动类(Policy)
特征来源:宏观政策、产业扶持、会议精神等;通常带来预期改善与情绪共振。
量化要点:
·方向 (dir):依据政策导向。扶持/利好设 +1,限制/收紧设 -1;
·情感 (sentiment):从媒体报道和舆情语料中提取正负倾向。若原文为“支持”“鼓励”“突破”,则 > 0.5;
·可信度 (source_cred):中央/部委文件 = 1.0,地方政府/协会通知 ≈ 0.8,媒体预测 ≈ 0.6;
·预期幅度 (expected_move):依据历史同类政策的短期涨幅均值设定,如 0.004~0.008;
·受影响股票 (codes):选取政策指向行业中的龙头与 ETF;
·后期量化:广度以行业内标的成交额总和度量;惊奇度为事件日行业平均超额收益。
在得到表格后,所有事件按统一的数理框架计算指标:
惊奇度(Surprise)
广度(Breadth)
强度(Impact Score)
冲击–衰减核拟合
通过这些公式,每个事件的冲击幅度(β₀)与持续性(τ₁, γ, w₁)可定量化,最终形成表格化、可回归、可预测的“事件-市场反应”数据集。
6.3模型建立
6.3.1 参数设定
事件集合
。每个事件
的核心字段:
o
:首次披露/生效日;
:受影响证券集合(股票/ETF);
o
;
o
(利空/中性/利多);
(文本/舆情情感);
o
(信息源可信度);
(一致预期的日度幅度,缺省视为0)。
·
:标的
的日收益;
:市场基准收益(等权或成交额加权)。
·事件窗
,常用
交易日。
事件分类体系(标签体系)四大一级类(可扩展二级):
·先验半衰期(用于冲击核初始化):
(单位:交易日;可用数据自适应更新)
6.3.2事件特征工程
事件特征工程包含强度、广度、惊奇度、可信度、方向
1 广度(Breadth)
以事件日成交额或覆盖面衡量:
2 惊奇度(Surprise)
用 超额收益偏离预期 衡量:


