似乎很多人对数据分析感兴趣。那么就多说两句

来源: black_head 2014-04-22 18:05:35 [] [旧帖] [给我悄悄话] 本文已被阅读: 次 (2517 bytes)
回答: Calling 数据分析Medlover2014-04-19 18:44:45
似乎很多人对数据分析感兴趣。那么就多说两句。数据分析

望文生义,一是数据,二是分析。很多初始的数据是需要做一定的处理才能进一步分析。比如数据分析软件包都带的SQL就是一个处理数据的工具。还有一些软件包内建的处理数据的函数。所以有计算机背景的人会很快掌握的。常见的数据分析软件有SAS, SPSS, R 等等。R的特点是开源的和免费。它需要把所有数据导入内存才能进行下一步分析。当你的数据有超过百万条记录,R就跑不动了。另外R中的分析模块都是专业人士开发,但无经过认可。这里的分析是指统计分析。统计分析决不是仅是计算平均数或百分比。这是数据分析所不能绕过的坎。就算所有的统计方法你都掌握了,是否你的分析水平就过关了?答案是NO。统计领域有句谚语叫"Gabage in, garbage out."。比如芝加哥冰激凌的消耗量与犯罪率的关系。这些数据都是真实的。你将这组数据导入任何数据分析软件都不会报错,而且结果高度正相关。实际上分析软件和结果都没错。与犯罪率相关也许是季节(夏季),夏季的冰激凌的消耗量相对高。但冰激凌的消耗量不是导致犯罪率的变量。在一较复杂的数据分析中,如果没有较深度背景知识,很容易犯上面的错误。再一个例子。交通事故与性别的关系。交通事故中男性的

概率显著高于女性。如果这个数据中,女性占80%以上,那么这个结论可能要推翻了或者俩者都不显著,无区别。

假如数据没有任何问题。那么选几十个统计方法中的那一个做分析是另一个要面对的问题。当然这与你的数据本身高度相关。如国你想进入这个领域,找一本acdemic杂志或report,看看其中的统计结果你能看懂多少。比如在health care system,哪些是导致high cost因素, 怎样在不降低治疗质量,去减少住院时间等等。

加跟帖:

  • 标题:
  • 内容(可选项): [所见即所得|预览模式] [HTML源代码] [如何上传图片] [怎样发视频] [如何贴音乐]