最近也不知道怎么,老能刷到或者听到“特雷尔”这个名字。一开始我还纳闷,后来想想,,好像是有那么几个打篮球的叫这个。不过这名字也勾起我一些回忆,不是关于哪个名人,是我自己以前瞎折腾的一段经历。
大概是好几年前,那会儿我对处理一些公开的数据特别感兴趣,就想着自己动手搞点东西出来。当时也没啥正经的项目名,我就随手给文件夹起个代号,叫“特雷尔”,纯粹是觉得顺口,也没啥特别的含义。
我的“特雷尔”实践捣鼓过程
第一步:找目标。 当时就是想看看,能不能从网上那些公开的、乱七八糟的信息里头,找出点有规律的东西。比如,那时候我瞎琢磨,能不能分析一下某些运动员的一些公开数据,看看有没有啥不一样的发现。
第二步:捞数据。 这步挺头疼的。那时候不像各种现成的数据接口那么多。我那时候就是土办法,去一些体育新闻网站、论坛、还有一些统计网站,手动或者用点简单的小工具去抓页面上的信息。抓下来的东西,那叫一个乱。
第三步:洗数据。 这是最耗时间、最枯燥的一步。你想,网页上扒下来的东西,格式五花八门,有的是文字,有的是表格,还有的混在一起。缺胳膊少腿是常事,数据对不上也经常有。我就开个Excel表,吭哧吭哧地整理,写点简单的脚本跑跑重复值,手动校对那些看起来明显有问题的。这活儿真是磨性子,弄好几天,才勉强整理出来一小部分能用的。
- 检查数据是不是有漏的。
- 统一名字、日期这些格式。
- 把那些明显是错误录入的删掉。
第四步:瞎分析。 数据稍微能看,我就开始琢磨着分析。也没用啥高深的玩意儿,就是最基础的排序、求个平均数、看看比例啥的。比如算算不同位置球员的平均得分、篮板啥的随时间的变化,或者比较下不同年份选秀球员的某些数据表现。当时就觉得,能自己动手把一堆乱码似的东西,变成稍微能看懂点的图表或者就挺有成就感的。
这事儿咋样?
也没搞出啥惊天动地的毕竟我用的数据量不大,来源也比较单一,分析方法也简单得很。得出的那些所谓的“规律”,自己看着都觉得有点牵强,更别说拿出来给别人看。
但是,整个折腾的过程,现在回想起来还挺有意思的。从一开始的一头雾水,到自己动手去找、去整理、去分析,一步步踩坑,一步步解决。虽然结果不咋地,但这个动手的过程本身,让我学到不少东西,至少对数据处理有更实际的体会。
那个叫“特雷尔”的文件夹,估计现在还在我哪个旧硬盘的角落里睡大觉。这事儿让我觉得,很多时候捣鼓东西,不一定非要有个特牛的结果,那个过程中的体验和学习,可能更重要。自己玩儿明白,心里就踏实。
还没有评论,来说两句吧...