项目作品集

数据分析与商业智能项目的完整展示,涵盖机器学习、数据挖掘、文本分析和时间序列分析等领域

🏨
机器学习

酒店预订取消率分析

基于Kaggle酒店预订数据集,深入分析酒店预订业务特征和取消率影响因素。通过数据清洗、探索性分析和特征工程,构建XGBoost机器学习预测模型,准确率达到87%。结合SQL数据库设计和PowerBI可视化仪表板,为酒店管理层提供数据驱动的业务优化策略。

技术栈

PythonXGBoostPandasMatplotlibSQLPowerBI

项目亮点

  • 处理119,390条预订记录,32个特征变量
  • XGBoost模型准确率达到87%
  • 识别出影响取消率的关键因素
  • 设计完整的数据库架构和BI仪表板
🛒
数据挖掘

淘宝用户行为数据分析

基于淘宝用户行为数据集,运用数据挖掘技术深入分析用户购买模式、行为路径和消费偏好。通过RFM模型进行用户分群,识别高价值客户群体,并构建用户画像体系。结合Tableau可视化工具,为电商平台提供精准营销策略和用户运营建议。

技术栈

MySQLTableauPythonRFM模型数据挖掘用户画像

项目亮点

  • 处理1亿条用户行为数据
  • 构建完整的用户行为分析框架
  • RFM模型实现精准用户分群
  • Tableau可视化仪表板展示核心指标
🎬
文本分析

《红海行动》豆瓣评论情感分析

运用Python网络爬虫技术获取豆瓣电影评论数据,结合自然语言处理和情感分析算法,深入挖掘观众对电影的真实评价和情感倾向。通过词频分析、情感极性判断和地域分布统计,全面解析电影口碑传播规律和观众反馈特征。

技术栈

PythonSeleniumBeautifulSoupJiebaWordCloudMatplotlibPandas

项目亮点

  • 爬取数千条豆瓣电影评论数据
  • 实现中文文本情感分析
  • 词云可视化展示高频词汇
  • 地域分布和评分趋势分析
📈
时间序列

四川省CPI时间序列分析

基于四川省20年月度CPI数据,运用时间序列分析方法研究通胀变化规律。通过ARMA模型拟合CPI时间序列特征,运用VAR模型分析CPI与货币供应量M2的动态关系,并进行格兰杰因果检验和脉冲响应分析,为宏观经济政策制定提供实证支持。

技术栈

SASPythonARMA模型VAR模型格兰杰因果检验脉冲响应分析

项目亮点

  • 20年月度经济数据分析
  • ARMA(2,1)模型拟合CPI时间序列
  • VAR模型揭示CPI与M2动态关系
  • 格兰杰因果检验验证货币政策传导