更新:如果您想了解如何将此数据直接推入HANA,请查看我的另一个导入.io博客在这里
我是一个巨大的扑克迷。在我的生活中,我玩了太多的线上和线下游戏,以至于我都不记得我的第一次了。但我记得的是我第一次在电视上看到WSOP。世界扑克系列赛是游戏的游戏,他们所有的大爸爸,云服务器吧,我计划赢得它一次。巧合的是,它与世界足球锦标赛同时举办,所以我今年不能参加(当然,网购返利,这是个糟糕的借口,没有人愿意把我的10公里参赛费花在沙发上;-)。
为了至少为WSOP 2014版尽我的一份力,我想用WSOP统计数据加载Lumira会很有趣(就像Nic用他的足球分析做的那样),看看我能不能可以做一个很好的故事板,我可以与世界分享。
我做了,这里是:
你可以使用以下网址玩自己的数据:
https://cloud.saplumira.com/open?key=5394242A45E311DDE10000000A4E423F&type=hanalysic
现在这个博客有趣的部分不是菲尔·赫尔穆斯有最多的手镯和"在钱里",而是没有接近安东尼奥·埃斯凡迪亚里的生活收入,有趣的部分是我做了什么来获得数据!
获取数据可能是一项挑战。当然,您可以找到一个在线csv数据集或使用API获取数据,但有时您会在网站上看到一些重要的数据,需要找到一种方法将其提取到文件中。这就是导入.io进来了。它可以从任何网站提取数据,并有大量的功能来共享您新收集的数据。我建议你看看他们的网站,想个办法:
https://import.io/
他们真的很棒,他们的服务是免费的!
在我的例子中,我使用导入.io从WSOP网站获取数据。使用导入.io向导
查看WSOP页面,我们可以看到有一页又一页的统计信息。浏览每一页并将信息复制/粘贴到电子表格中是非常笨拙的。这就是导入.io证明了它的有用性。
安装软件后,您可以开始提取过程。您可以看到,在提取数据时有三种选择:
在我的第一次尝试中,我使用了"Crawler",大数据分析应用,但是获取数据花费了很多时间,如下所示:导入.io就是在整个网站上搜集数据。我知道我的数据在哪里,我可以使用"提取器"。
输入您的URL并按"让我们破解"
我选择"提取器":
按大的闪亮按钮,向导会调查我的页面:
我的数据在表格中,所以我选择表格:
导入.io识别出我的表,并整洁地创建我的文件布局,大数据分析是什么专业,并提取在第一个表中找到的数据页码:
请注意,我跳过了第一行数据导入.io聪明到可以通过研究HTML找到列标题。按"我得到了我需要的"后,我就完成了,计算机大数据,准备将我的设置加载到云上
因为我的数据在多个页面上(我没有使用"爬网"来提取数据!),我需要输入数据所在页面的网址:
按刷新后我就有我需要的了!
我现在可以按页面顶部的下载按钮下载各种格式的数据。我选择csv.
文件可以很容易地加载到Lumira中,令我惊讶的是,我有更多的数据,然后在页面本身:
由于球员的国家的图像都标有国家名称,我甚至可以创建一个世界地图的数据自动在Lumira。生活是美好的
别忘了将数据加载到Lumira云中。视觉发现是从你的数据中自动获得一些见解的好方法。
猜猜看……卢米拉还发现安东尼奥·埃斯凡迪亚里的收入非同寻常:
卢米拉没有解释为什么我会让你了解"秘密":
安东尼奥花了100万巨资进入"一滴"游戏,并赢得了一场比赛惊人的1830万!我猜他喜欢这个机会。
我知道该联系谁来获得我未来10万英镑的买单。