3月13日,慌张。我作为一个大四本科生居然要指导大二本科生的SRTP项目,硬着头皮上了。凯瑟琳不能说不行,我是最行的凯瑟琳。
导师一周开了2次SRTP会议+1次组会,每次2小时,晕呼呼。3月24日开了第3次SRTP会议。

毕业设计的数据我不知道从何开始处理。我是这么分析的,有7个处于不同位置的风电场的风电功率待预测。
在train.csv里给出的是真实数据,2009/7/1 的 00:00 - 2012/6/28 的 12:00。(每一小时都存在)
其中2009/7/1 - 2010/12/31也就是待训练的数据(待拟合、待建立模型)。//13177
剩下的2011/1/1 - 2012/6/28是测试数据,但缺少好多段数据。//18758-13178+1
万级别的数据——人们运用机器学习传统方法的时候,一般将训练集和测试集划为7:3 ≈ 2.33,所以大赛组委会划定的2.36的比例我觉得很OK。
那么特征呢,这个数据除了时间信息外,给了每个风电场每隔12小时发布未来48小时的天气预报!!!也是预报!!!包括风的纬向和经向分量、风速、风向。
所以我模型的输入是时间以及天气预报,输出是风电功率。
比如我要得出风电场1的20090701 01时 的风电功率,我只能输入20090701 00 时对20090701 01时的天气预报信息
如果我要得出20090701 13的风电功率,我可以输入 20090701 00时和200901 12时对20090701 13的天气预报信息
?我有没有必要输入00时的天气预报呢,大赛的题目是提前48小时预测,但我的毕设可以不用局限于这个条件,因为按常理,时间越靠近,天气预报越准。
以20090701 13风电功率为例,提前1小时的天气预测为(2.77 -0.65 2.85 103.17),提前13小时的预测为(3.82 -0.59 3.86 98.85),暂时考虑取前者。
但大赛第一名对天气信息进行了合并处理,这种处理叫特征工程——即降维。
https://blog.csdn.net/boon_228/article/details/51749646 机器学习之(四)特征工程以及特征选择的工程方法:
具体的机器学习过程是这样的一个过程:
1.(Task before here)
2.选择数据(Select Data): 整合数据,将数据规范化成一个数据集,收集起来.
3.数据预处理(Preprocess Data): 数据格式化,数据清理,采样等。
4.数据转换(Transform Data): 这个阶段做特征工程。
5.数据建模(Model Data): 建立模型,评估模型并逐步优化。
(Tasks after here…)
https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/ 特征选择

4月4号晚上在奶奶家过了清明节,4月5号爸爸载我、妈妈、海云阿姨、悦晗妹妹一起去石峰山山庄和里澳公园玩了一整天,太开心了。

4月7日1:48,终于明白了不是toArray有1000个数组的限制,而是在浏览器中有1000个数的限制,晕厥,在node.js里运行就没有什么问题。其他的明天再说吧,我妈要是知道我搞这么晚非打死我不可。

回到顶部