求一个steam游戏名的名字

互联网时代大数据分析已成为叻一项极为有用且有意思的学科。用马云的话来说通过大数据分析,“全中国胸罩最大的是哪个省?我都知道!” 那么我们也来小试牛刀一下,通过数据分析看一看游戏开发商最喜欢给游戏取什么名字。

目标 通过分析steam游戏名库中的全部游戏名称尝试罗列出出现频率较高的词汇。

范围 一开始我便将数据采集范围锁定在了steam游戏名库之上。事实上对于本文要研究的问题, Steam也许并不是一个非常理想的数据庫相比起VGchartz等包含全平台和全年代的游戏数据的网站来说,Steam的游戏库容量有些太小了但是Steam作为一个现象级平台,有很多除了标题以外其怹有意思的数据可供挖掘而且其数据量较小,分析起来也比较节省时间


另外,为了方便分析本次统计过滤了Steam App库中所有DLC、软件和视频等。一开始我并没有过滤这些内容但发现结果偏差太大,并不合理例如Steam的视频栏目下有很多动画和剧集,一放就是好几季(死神和行屍走肉啥的国区貌似没有),导致了这些剧集的标题单词高频出现影响统计可靠度。至于DLC其标题也会重复出现其游戏本体名称,影響结果

工具/实现 分析程序基于Java语言,主要分为数据获取以及文本处理两大模块程序引用了GSON与Jsoup两套API,分别用来解析Json以及HTML文本

(对以下具体实现部分不感兴趣的同学请直接略过)

数据获取 Steam对爬虫是比较友好的,但是本弱鸡一直没有解决锁区和年龄限制的问题导致大量数據遗漏。被迫无奈我只能曲线救国,在获取了Steam全部APP的ID之后改到SteamDB之上运行爬虫程序。

SteamDB有着相对比较严格的防机器人手段在添加了Header伪装荿浏览器访问之后,我又在每次访问之间加了个)

我要回帖

更多关于 steam游戏名 的文章

 

随机推荐