R vs Python: data frame和高速数据整理

由于种种的原因,我的feedly里面很多东西很久没看了...今儿抽时间看来一下,貌似是十一月份的热点是dplyr, data.table或者说,data.frame高速操作的各种办法。

http://www.r-bloggers.com/dplyr-and-a-very-basic-benchmark/

这里有有个蛮有意思的比较,抄过来:

base
dplyr-df
dplyr-dt
dplyr-dt-k
dt
dt-k

Filter筛选
2
1
1
1
1
1

Sort排序
30-60
20-30
1.5-3
[1]
1.5-3
[1]

New column加列
1
1
(6) 4
(6) 4
(4) 1
(4) 1

Aggregation加总
8-100
4-30
4-6
1.5
1.5-5
1

Join合并
>100
4-15
4-6
1.5-2.5
-
1

从base的最基本函数,到dplyr+data.frame, 到dplyr+data.table,到dplyr+data.table+key,挺神奇的...我一直比较依赖的数据整理的包有两个:plyr和data.table,现在终于看到一丝更加有效率的曙光了。顺便作者还和pandas比了一下...这是为了杜绝我多用python的决心么?我一直试图努力的多用一点python,看来越来越不可能了...

pandas
data.table

Aggregate
1.5
1

Aggregate (keys/pre-sorted)
0.4
0.2

Join
5.9
-

Join (keys/pre-sorted)
2.1
0.5

Creating keys (sort)
3.7
0.7

话说,谁来进一步搞一下稀疏矩阵啊?我现在对这货比较依赖...


有趣的模拟

我现在的笑点好像越来越低了...

 
Statistical models

AB_Test
Post_Stratification
Post_Strat_rescale
HTE
HTE_rescale

(Intercept)
20.85 (0.37)***
-0.61 (0.04)***
20.85 (0.03)***
0.40 (0.03)***
20.85 (0.03)***

TCT
4.02 (0.52)***
4.02 (0.05)***
4.02 (0.05)***
2.01 (0.05)***
4.02 (0.04)***

pre_x

1.05 (0.00)***

1.00 (0.00)***

pre_x_rescale

1.05 (0.00)***

1.00 (0.00)***

TCT:pre_x

0.10 (0.00)***

TCT:pre_x_rescale

0.10 (0.00)***

R2
0.00
0.99
0.99
0.99
0.99

Adj. R2
0.00
0.99
0.99
0.99
0.99

Num. obs.
20000
20000
20000
20000
20000

p < 0.001, p < 0.01, p < 0.05

 


论网上集市二手物品的定价模式

最近园主尝试在网上买了一件二手物品。首先因为它还有点值钱,所以园主才花心思去卖掉,否则直接送人就好了对吧。

卖二手物品主要集中在各种分类网站上,园主选了几个:58同城、百姓网、赶集网和淘宝二手(闲鱼)。这几个网站买东西的模式都差不多,反正大概写写找张照片挂上去就好了。但是定价呢?

首先参考同类产品的定价不是?大概搜了搜别人的定价,嗯,估摸一下可以类似产品取个均值,于是楼主写了个1500块。

然后我们知道需求曲线: q = q(p),大概长成百度说的这个样子:(不要问我为什么Q在X轴....经济学家永远是奇怪的一群人)。2fdda3cc7cd98d10d49f9c38213fb80e7bec9074我们假设在每个平台上每天搜这个产品关键字的人有 X个,搜到之后点进去看的占10%,如果价格高于他的预期效用(最高购买价)就不买,如果低于预期效用就不买。那么就可以大概算一下园主的waiting time的问题就是,愿意出价的人>=1个。即落在上述需求曲线那条虚线水平线上面对应的累计Q1>=1,虽然实际上应该是离散的但是就写个积分形式吧:\int_{p_{t}}^{1500}q(p_{t})\geq1

假设上述需求曲线成立,那么对于每天的这个积分大于1的概率(此时可以把所有访客看作服从这么一个需求曲线作为概率分布密度函数的分布,那么每天卖掉的概率就应该是

P\left[\left(\int_{p_{t}}^{1500}q(p_{t})\right)/\left(\int_{0}^{1500}q(p_{t})\right)*\left(x*10\%\right)\geq1\right]
然后x可以是对于t有个随机性的,理论上我们可以算出来到底第T天累计的\sum_{t=1}^{T}x_{t}会使得上述累加概率和足够大。假设卖掉的话我就拿到当时的价格p_t,卖不掉的话就得到0,这样我就可以算一个对于等待时间的期望E(waiting)或者期望效用。鉴于我是没有耐心的,也不知道上述各个参数的具体值,所以我打算采用一种策略来估计上述系数的实际值:

  • 统计每天的页面点击量,然后如果当天没有卖掉,第二天就降价\delta,降价的幅度可以通过梯度下降计算出来(类似于降价拍卖原理)。

于是我就洋洋得意的开始执行此战略。

你问我实际的执行情况?呵呵,我就第一天挂了1500,第二天脑袋一抽写了个1300,然后就卖出去了...然后就没有然后了....反正卖掉了,做人要讲诚信...


实验设计的原则与我的体会

今儿继续读前几天说到的那本书:

Montgomery, Douglas (2013). Design and analysis of experiments (8th ed.). Hoboken, NJ: John Wiley & Sons, Inc. ISBN 9781118146927.

嗯,我读的很慢,唉,求轻拍啊。

刚读完第一章...(默默的跪墙角了,第一章才23页,居然读了这么久!)。看到一些比较有意思的点,抄一下顺便罗嗦一下。

1. 实验设计的原则

基本上就三点吧:随机化、重复、分块(blocking)。

  • 随机化没什么好讲的了,就是保证treatment的分配和其他各种可观测不可观测的variable之间相互独立、相互不受干扰。从我的理解,这大概是源于一条定理(下为简述):
    如果回归方程是Y=X\beta+Z\gamma+\varepsilon,且X\bot Z,那么下面两式估计出来的\hat{\beta}(均值)一致、估计方差后者小。
    1) Y=X\beta+\varepsilon
    2) Y=X\beta+Z\gamma+\varepsilon
    所以如果我们保证了treatment和其他各种因素相互独立,就可以直接通过随机试验来读出treatment effect了。
  • 重复。重复这里一方面可以广义的理解为“可重复研究”,另一方面其实很简单的就是样本量要足够(比如不停的抛硬币来判断硬币是不是均衡)。也就是说,只针对少数个体的实验可能受到各种随机外在因素的影响太大,而加大样本量(实验个体)有助于减少这样的误差、同时提高估计的精度。所以,重复更多的是,在相同(或者类似)的个体(情景)上重复同样的treatment/control。
  • 分块。这个主要是排除一些样本间差异的影响。作者给的例子比较直接,有两批原料样本,然后做某种实验。两批原料可能由于批次、厂商不同,相互之间有些差别,但这种差别我们是不关心的。所以评估的时候,就把他们分开、每块单独评估。(或者理解为,回归方程里面加一个批次的dummy variable,然后算方差估计值的时候做一下cluster。

除上述三点之外,还有一个要注意的就是factorize,译作因子化?简单的来讲就是一分为二、是或者否。然后多个因子组合一下...

2. 实验设计的一些要点

这个就是高屋建瓴的说说咯。

  • 利用自己在该领域的知识。否则就是盲测?感觉这个有点像经济学里面强调structual model的那种感觉...
  • 实验设计和分析越简单越好。不是什么高深的技巧都应该一股脑的放在实验设计上的...越高深适应性可能就越差。
  • 认识到实际价值和统计显着性。这个就是说,统计上显着的,实际中不一定有意思。比如花了很大力气,证明了某个treatment effect是显着的,但是提升只有0.01%,却增加10%的成本,那就得不偿失了。
  • 实验往往是递进的。几乎没有一次性的实验是完美的,我们往往是在渐进的实验过程中不断学习。一般第一次实验都是简单而广泛的,更多是一种尝试和探索大致方向。作者建议不要把多余25%的资源投入到第一次实验。

嗯...其实挺好玩的还是,虽然有很多繁琐的地方,但大致的原则和方向还是蛮清晰的。实验设计其实最大的区别就是,不是想尽办法用模型去套现有的数据(黑一下ML),而是想办法更好的搜集数据、从而进一步时间简洁有力的分析(simple, elegant and powerful)。


几个有趣的问题

今儿跑代码的百无聊赖的时间,看了一下昨天收藏的周志华老师的一个演讲:Boosting 25周年。链接在这里:

http://vdisk.weibo.com/s/FcILTUAi9m111

对Adaboost之类的我已经忘得差不多了,还好有当年ESL的笔记可以翻翻。看周老师这张slide,基本上是总结了一下集成学习(ensemble learning)的大概思路。

2014-10-20 15_45_23-CCL2014_keynote-周志华.pdf按照这个思路,Boosting类和bagging以及random forests这种都算作ensemble learning了。然后在简单的回顾了adaboost的前世今生之后,抛出来一个有趣的问题:

理论上我们证明了,Adaboost在多轮学习之后会过拟合,可是为什么实践中很少看到过拟合的现象呢?

嗯...然后就是边界理论和统计观点的两种解释...我就不赘述了,大家去看周老师的slides就好。我好奇的其实是,overfitting本身是怎么可以用一个理论的方法来证明的呢...感觉不那么直观呢...好好奇啊,想找点相关的paper来看看,可又怕是另外一个大坑,上周那个实验设计的大坑还没填平或者弃坑呢。