请问各位大师,怎么样可以找到足够量的好的数据

我最近负责组里predictive scenario 的测试工作。可是手里没有足够的用户数据, 特别是CRM 方面的市场和销售数据。目前排在第一位要测试是logistic regression, 想请问各位大师,怎么样可以找到足够量的好的数据呢。
足够 --- 我想知道如果早测试一个implementation 的 performance, 多少数据叫足够?  好 --- 我想知道对于logistic regression来说, 什么样的数据分布是好的,我又怎么判断呢?

我知道数据还要经过处理,比如说,年龄要变成年龄段, 这个处理我会自己做。我需要原始的市场和销售的数据。 请各位指点于我。 谢谢。

所有跟帖: 

根据忘光以前学的概率统计, -peterdu- 给 peterdu 发送悄悄话 peterdu 的博客首页 (223 bytes) () 04/17/2013 postreply 07:51:04

有没有公开的数据库, 我可以拿来做基础,来生成我的数据 -追书- 给 追书 发送悄悄话 追书 的博客首页 (182 bytes) () 04/17/2013 postreply 07:59:23

Check an econometrics text book which has a cd for data, includi -zhuzhuhamster- 给 zhuzhuhamster 发送悄悄话 zhuzhuhamster 的博客首页 (92 bytes) () 04/17/2013 postreply 18:26:35

你要是有个小样本,就用bootstrapping做个大的出来 -小凤仙- 给 小凤仙 发送悄悄话 (86 bytes) () 04/17/2013 postreply 19:15:18

Agree. This is professional. -w1071- 给 w1071 发送悄悄话 (0 bytes) () 04/17/2013 postreply 23:37:44

就是模拟,也得有标准,采样如果太可以接近 -peterdu- 给 peterdu 发送悄悄话 peterdu 的博客首页 (49 bytes) () 04/18/2013 postreply 09:41:12

回复:你要是有个小样本,就用bootstrapping做个大的出来 -追书- 给 追书 发送悄悄话 追书 的博客首页 (166 bytes) () 04/18/2013 postreply 11:17:48

回复:你要是有个小样本,就用bootstrapping做个大的出来 -追书- 给 追书 发送悄悄话 追书 的博客首页 (166 bytes) () 04/18/2013 postreply 11:17:48

请您先登陆,再发跟帖!