我目前自己的理解是,explanotory variable 如果是 endogenous,就说明这个 variables 并不能最好的 estimate 我们的 model。也就是说它会跟 IV variables correlated。 那 IV variables 到底是一个什么,书上给的定义是它是一个工具,去更好的 测量 x 跟 y 的关系。那我可以理解为,x 是被 IV 影响的吗?但是 IV 是不可以直接跟 Y correlated 但是因为它影响了 X,所以也影响了 Y,这不也算是 correlated 吗? 有大神 能给我梳理一下他们的关系吗?感觉书上没有说的很清楚。谢谢!!万分感谢!!!
谢邀,工具变量其实就可以看作是一个过滤器。
要想让 OLS 估计的准,我们总是希望把因变量 Y 拆成两个独立的部分,一部分是自变量 X 和
参数 ,另一部分是我们无法控制的扰动 。而如果这两者不正交,那么做回归的时候,有些因 素就可以 在 X 和 之间游走不定,因为我们没法控制,所以我们无从知道这个游走不定,暗地 里联系着 X 和 的因素到底会在估计出来的参数中如何体现,体现多少,是在 X 身上分配多一 点,还是隐含在残 差里面多一点……所以这样就导致 OLS 估计不准,这也是所谓的内生性问题。 要解决这个问题,我们想做的就是找一个过滤器,把 X 中和 相关的部分过滤掉,只剩下正交 的部 分,这样 OLS 就又重振雄风了。工具变量就是这个过滤器。 拿常见的 2SLS 做例子,第一 步是先用工具变量 Z 做自变量,对 X 进行回归,然后得出一系列的参数。 这一步的意义在于, 把 X 分成两个部分,由 Z 决定的部分,和于 Z 无关的部分,这两者之间是正交的 关系。 而因 为工具变量的定义就是和 X 有关而和 无关,所以把 X 拆开的这两部分,由 Z 决定的部分自然 也 和 无关,而另外那部分,就是我们要过滤掉的渣子——X 中蕴含着的和 相关的东西。 扔掉 渣子很简单,就是用拟合值 来代替真的 X,这样相当于把 X 清洗了一遍,所有和我们 无法控 制的因素相关的都被工具变量过滤掉了,代入到原来的方程式中回归,就能得到更准的估计 了。 理想情况下,工具变量 Z 和自变量 X 强相关,然后和 无关,这就是找对了合适的过滤器,渣 子都 清洗掉了,剩下的是纯正的 OLS 的味道;但是有的时候 Z 虽然和 无关,但是和 X 关系也 不大,这就相当于过滤网孔相对太细,能够留下来的部分很少,受到样本的影响也会更大,这 个时候就是我 们说的弱工具变量了。