SAP今天提供了这个网络广播,介绍了数据科学的背景知识。
图1:来源:SAP
数据科学家使用数学和IT解决业务问题,提出正确的问题,并使用技术工具和编程语言
图2:来源:SAP
数据科学与BI有何不同?这位SAP发言人说,BI定义了标准的报告功能,而data science包含一个数学组件
图2所示的成熟度模型显示了数据挖掘,将数学标准应用于数据集、算法、决策树,找到模式,创建集群,或者预测一个时间序列
建模进来,云指,用一个业务流程来建立一个因果模型,驱动因素是什么,发明一个数学公式,或者用数据来微调参数
优化是看偏差,原生淘客app,改变安全库存。
图3:来源:SAP
图3是一个小测验-数字是欧元
一一组数字是真的
另一组数字是虚构的-由人发明的
54%的与会者认为左边的一栏是假的(包括我)。等到"最终答案"结束。
图4:来源:SAP
图4展示了一个零售示例,说明客户如何购买物品
零售生成数据,衡量促销活动的影响
零售产生新产品,需要测试,问题很大#产品不合格
公司将两个新产品上架销售产品,哪个产品或多或少
图4看起来产品A比较成功,它可能会把产品A放在货架上,去掉B
第一种新口味你可能出于好奇而购买。第二种效果-吃了它,喜欢/不喜欢,再购买
在第一个月,第一种效果更强,第二个效果更重要的是长期留住客户
你想看看人们是如何反复购买产品来决定成功并提出正确的问题
图5:来源:SAP
图5是一个铁路供应链优化的例子,他们管理着一个庞大的备件供应链,设置复杂,由于服务列车的位置不同,零件可用,零件损坏。
供应链在每个位置进行管理,补充政策-使用备件直到在再订购点下降,并随着时间消耗。涉及参数。
谁说再订购点应该在哪里?
解决方案着眼于未来的模拟,数据与大数据技术,使用历史信息-需求的统计分布
然后优化参数,以减少再订购点,从而减少库存,从而实现预测
图6:来源:SAP
图6中报纸销售的下一个示例提供了优化预测
如果发送的数量不够,将失去销售,但是如果报纸太多,就要承担发回报纸的费用
每天发多少份报纸才是模型。
看看历史,预测未来的销量;加上安全库存
举个例子,说图6中的"B"店是足球场旁边的一个小店,gameday卖很多,其他天没有。它需要考虑特殊因素
更精确的是需求的可变性
它使用模型优化打印/销售论文
图7:来源:SAP
另一个使用案例是在数据科学获得数据质量之前,使用传感器数据分析的实用程序-电力实用程序-用于流程
"到位"发言人说。
数据记录可能有数百万条条目-可能不完整
使用数据科学提高数据质量:
结合所有三种方法提高数据质量
数据科学团队由具有数学背景的人员组成,并结合技术和可视化(隐藏复杂性)以及后端使用大数据。请参阅
图8:来源:SAP
图8显示SAP UI5前端具有良好的用户体验和功能
图9:来源:SAP
图9显示客户同时购买2种产品的频率,有助于促销(这是否意味着橙汁和冷冻面包一起购买)?
图10:来源:SAP
图10显示了"最小公分母"
BI和UI5与UI5结合事务和分析世界,实时,美观的图形,努力有限
SAP大数据平台包括HANA,大数据系统,Sybase portfolio
算法方面包括HANA中PAL的不同工具或SQL算法,Java对于具体编码
备件模拟器是使用Java构建的
如何启动数据科学项目:
用例研讨会
概念验证项目
完整解决方案的商业案例
同时处理业务和IT
数据科学测验-结果
图11:来源:SAP
如何分配第一个数字,如图所示在图11中
当你伪造纳税申报单时,你让数字看起来是随机的
每个数字都有相同的概率
说话者说打开维基百科-看看描述数量的数字计数-墙的长度,写下来-数字的第一个数字,1经常,2经常,3少,
8和9几乎从来没有出现过–本福德定律
数字1在右边一次,所以右边是不真实的
左边是真实的
问答:
Q:零售示例–除了重复购买之外,是否还有其他数据点来确定产品是否更受欢迎?
A:货架空间可视性–未使用数据点,将其作为影响因素纳入
系统测试程序
Q:数据挖掘–使用完整还是样本?
A:这取决于业务问题
Q:在谈到数据质量时,在剔除异常值时,需要了解异常值来自何处—如何评估?
A:取决于业务问题
Q:与数据质量有关,示例已更正传感器数据,假设您没有丢弃错误数据,那么如何确保单一来源的真实性?
A:发送未清理的数据,使用数据挖掘进行清理,数据清理命题,使用现场检查,并比较数据集-如果不同意,则表示方法失败
Q:您在多大程度上可以使用Hadoop进行数据科学和分析,以及SAP HANA?
A:连接Hadoop和HANA–智能查询层-参见ASUG年会0404 Adobe&8217;集成Hadoop的故事中的Adobe示例…| ASUG
Q:如何建立数据科学技能?阅读清单,在线建站平台,培训?