计量经济学、时间序列分析和机器学习三者有什么区别与联系?

应用领域不一样,方法和模型也各有侧重。但是都有部分模型要训练,要拟合出模型,并且在估计的时候用的方法很相似。
有一种想法,觉得计量经济学和时间序列分析的有些方法只是对特定问题,加上专家规则的方案 ,而这三者都是统计学衍生出来的.不知道对不对?
已邀请:
匿名用户

匿名用户

赞同来自:

从社会科学研究者的角度试着回答这个问题。

1. 你观察到一个现象,提出了一个解释现象背后的因果关系的假设:X导致了Y。你设计了一个随机对照实验,将研究对象分为对照组和干预组并对干预组实施X,希望通过观察实施后干预组和对照组的差别来检验你的假设。

2. 你观察到一个现象,提出了一个解释现象背后的因果关系的假设:X导致了Y。你设计了一个随机对照实验,然而由于某些外部条件限制,随机对照实验无法进行。于是你退而求其次采取准随机对照实验,让你的实验对象自我选择是否接受干预X,希望通过观察自然分组的干预组和对照组的差别来检验你的假设。

3. 你观察到一个现象,提出了一个解释现象背后的因果关系的假设:X导致了Y。由于难以确定组内性质较为均一的对照组和干预组,随机对照实验和准随机对照实验均不可行。于是你大量搜集数据,希望通过分析X和Y的相关性来提供支持你的假设的证据,尽管观察性的非实验研究并不能直接证明你的假设。

以上三种情况都要用到统计学的工具检验干预的效应或相关性在统计意义上是否显著。当这些统计学工具被应用于检验经济学理论时,就可以认为是计量经济学的内容。经典计量经济学方法以回归分析为主,实际上是因为经济学研究中随机对照实验往往不可行,研究者为了控制变量,对缺少随机分组的一种补偿。如果样本数据不是来自时间的一个横截面上,而是对同一研究对象在不同时间点的多次观察,这种数据叫做时间序列数据,处理和分析这种数据的方法统称时间序列分析;时间序列分析也是计量经济学的一种方法。当然除了经济学研究以外,时间序列分析还有很多其他用途,就好像日本既属于东亚地区也属于环太平洋地区,或者詹姆斯既可以打小前锋也可以客串大前锋,教练等等。

更新:计量经济学的语境中与时间序列数据(time series data)并列的是横截面数据(cross-sectional data)、混合横截面数据(pooled cross-sectional data)和面板数据(panel data)。顾名思义,横截面数据是同一时间点对多个对象观察得到的数据;混合横截面数据和面板数据则是多个时间点对多个对象观察得到的数据,两者的区别是面板数据的观察对象是固定的,混合横截面的观察对象则不固定(例如不同年份的人口抽样调查)。

至于机器学习,个人粗浅的理解是用一些算法从已知的数据中寻找规律构建预测模型,并通过“学习”新数据优化模型,提高预测的准确性。机器学习只关注数据本身,算法多涉及逻辑分类,难以直观的联系到社科理论(也就是冯小树的回答中的第3点"interpret"),而社会科学包括经济学学者最关心的恰恰是解释现象的理论,因此机器学习在实证研究的应用目前还比较少。不过常用的计量经济学回归模型在应用中经常出现过度拟合问题,在预测上表现不佳,已有一些CS出身的社科学者开始使用源自机器学习领域的方法,如交叉验证(cross validation)提高预测模型的稳健性,对比随机森林模型和线性、非线性回归模型的预测效果等等(多说一句,见过的随机森林ROC曲线在我这个非CS出身的人看来真的蛮怪的)。

综上:经济学实证研究和人工智能研究的不同需求产生了计量经济学和机器学习,数学和统计学是它们的理论基础。

慧航

赞同来自:

有本质区别。
从研究的动机上来讲,计量经济学研究的是因果,时间序列分析范围太大不做讨论,机器学习就是相关性。
从赚钱的角度来讲,如果你真的懂计量,你的收入不会很高。如果你真的懂机器学习,你的收入不会很低。
===
我经常讲的一个例子,经典的教育回报问题。
当计量经济学家研究读不读博会不会带来工资的提高时,可能写下如下的方程:
reg wage on education experience age
但是这个回归有问题,因为观察不到的“能力”变量也可以影响工资。经济学家就是想知道,当大家能力、经验、年龄、性别,甚至老爸的收入都一样的时候,你读博能不能获得薪水的提高。说的再明白一点,同一个人,读博和不读博工资的差异是多少。
但是业界可能对这个问题不感兴趣。
比如你如果在银行,考虑要不要给一个有博士学位的人发信用卡。博士工资高,知道这个就可以了,管你是因为能力高所以工资高,还是以为读了博士才工资高,who care?
至于时间序列分析,宏观经济学家在搞时间序列,金融学家也在搞时间序列,业界怎么用时间序列我不知道,关键是他们用时间序列的方法和思路完全不一样,单拿出时间序列来也太naive了。

冯小树

赞同来自:

说实话我没太看懂题主的问题,可能是刚睡醒的原因,哈哈哈哈。
不管怎样,先分享一些这一段读到关于ML和计量经济学的东西。
我们亲爱的Varian(范里安)老先生近几年特别热衷于把ML的一些东西试着转化为经济学(计量经济的成果)。
1. 这篇文章是老先生对数据的感慨与肯定,基本上就是说太强了我们要好好学好好用,好想做一个统计学家啊之类的。http://people.ischool.berkeley.edu/~hal/Papers/2013/BeyondBigDataPaperFINAL.pdf
2. 之后呢,老先生又说他在working on ML怎么从经济学中学到东西。
附上他的答案的Quora的连接
Why is econometrics isolated from the big data/machine learning revolution?
3. 我觉得William Chiu 的回答很贴切, 他说“econometricians, rightly so, want to be able to *explain* observed phenomena. Many, though not all, machine learning techniques (neural network, SVM, ensemble) have a very difficult time quantifying the impact of one variable on the observed phenomena.” 我觉得这是个一发入魂的意见,就是经济学家或者计量经济学经常在纠结的‘interpret’的问题,就是说要怎么解释阐述理解变量。
然后他又说‘ Econometricians are taught to begin with a theory and build a model to validate/invalidate the theory. Start with the theory. Machine learners start with the data.’这个还是有一些偏颇就是经济学家从理论出发,而数据分析师则是从数据出发。
说到这里想起来大学时我的一个统计学老师说的一个问题,其实统计学家也常常因为各种原因,主要是专业的限制困惑于‘interpret’。
4.Quora上还有好多关于这个问题的看法,有兴趣的话真的可以好好研究一下,这是个比较前沿而且特别实际的话题,我看了一些之后觉得真的是受益匪浅。
5.最后附上Varian老先生的一篇文章,这篇文章与其说是一篇paper不如当作一个‘Machine Learning Econometric 101’
http://people.ischool.berkeley.edu/~hal/Papers/2013/ml.pdf

文召

赞同来自:

作为一个搞控制的人,后来学习计量,感觉高级计量就是一大推矩阵计算去做高维数据的统计分析,只不过数据范围都是来自于经济金融领域;另外,计量的主要用途是用来做实证,当你去验证一个idea时,用计量来拟合数据,做一些结果的显著性检验。时间序列是计量的一个分支,也就是自回归而已,个人偏爱金融时间序列分析,当年将ruey tsay那本书看了几遍。窃以为波动率是现代时间序列的核心吧,engel和granger两位大师发展了这个学科。再说机器学习,机器学习没有系统的学习过,当年为了比较non-linear对linear的优势,学过stanford的那个ml公开课,学习起来比计量更有意思,用到的数学差不多,但是不需要计量上的那么多显著性检验。
传统的计量或者统计分析数据包含四方面工作,分析、估计和假设检验、预测,机器学习主要目的是预测,其他的不重要,数据挖掘更侧重数据的分析。计量里面用的比较的的还是线性回归,机器学习更多的应用非线性model,比如计量喜欢用linear 或者logistic(当然,斯坦福公开课的吴恩达也喜欢用),在数据量比较大时,其实非线性方法或许更好。

葛通

赞同来自:

联系的话,都是让数据说话。区别的话,按照题主的顺序,计量当中,我们拥有很多有关数据关系的先验信息,这些信息可以为我们提供帮助;到了时间序列就没那么多了;机器学习当中到几乎没有了。
下面是我的一些认识:
1 统计学用统计量解读数据,认识世界。
2 统计是搜集、加工、推断和解释信息的技术。
3 计量经济学用模型解读数据,描述历史。
4 历史数据的生成既有必然部分也有偶然部分,随机模型通过控制偶然和归纳必然来描述历史,过程要经过模型设定、模型估计、两级检验和结论解读。
5 机器学习选择合适的模型、策略和算法,借助数据发现知识。
6 除了样本观测值,还有其它信息可以帮助我们认识总体,这种思路在数据分析上被称为贝叶斯方法。
7 模型是为问题而生,而不是为正确而生,数据分析如此,经济学也是如此。

葛通:让数据说话的三门学问综述
让数据说话的三门学问综述(下)
为什么会觉得时间序列模型比较难学|时间序列的正名

Marshall Mo

赞同来自:

时间序列可以并入到计量里面,所以这个答案只是简单说说计量和机器学习的异同。
经济学中的大部分问题都可以被简单归纳为:给定一个对数据生成过程 (data generating process)的假设,例如
,然后根据已有的数据 (并假定数据集是这一DGP生成的 iid sample)来估计
。也可以说,我们感兴趣的是如果x变化,y会怎样的变化,所以我们不妨把这一类问题称为
问题。
而计量经济学的工具就是在给定什么样的假设条件下 (eg.
是否成立)用什么样的工具来得到一个unbiased (或consistent)的对于
的估计,也就是
。如果上述对DGP的假设成立,那么最好的工具就是Ordinary Least Square (OLS)。如果不成立,则可以一步步放松假设,并使用更加复杂的工具 (IV, DID, RD, etc.)。
机器学习的目标则不是估计一个
,也并不会过多关于数据生成过称(?),只是在给定了一组数据之后,怎样更好的预测out of sample outcome。换言之,假如我们根据现有的数据fit一个model,那么给了一组新的x之后,我们对这组新的数据的y所做的预测是否准确?所以不妨把机器学习的问题称为
问题。
当然,这并不意味着我们不能用计量经济学的工具进行预测。实际上,假如我们对数据生成过程的假设是对的,那么计量经济学家所给出的最好(least MSE)的预测也就是
,但是这里的预测和机器学习的预测侧重点并不相同。
首先,计量经济学工具所给的预测从根本上来说就是overfitting的——也就是说在给定的样本内预测准确性高,而对于新的样本的预测准确定低——因为计量工具的侧重点就是在于怎样用样本内的数据来给出一个对于
的unbiased estimator。尽管通过一些手段 (eg. lasso回归)可以降低overfitting问题,但这不可避免的会导致bias。其次,经济学中的预测通常是反事实(counterfactual)的——假如政策出现变化,关心的结果会出现什么样的变化——那么这类问题就需要我们知道在给定的DGP之下的
,而不是简单的

不过计量经济学和机器学习也并不是泾渭分明的,有时候利用机器学习的工具得到的预测也是可以用到计量里面,从而解决一些先前无法研究的问题。
举个简单的栗子,比方说我们关心某样政策变化会对砍伐森林造成什么样的影响。原先经济学家们可能会用政府的统计数字来看各地区砍伐的数量,但这一数字很可能会存在偏误,比如说人为的瞒报。一个客观的方法是利用卫星照片来看各个地点是否存在森林,然而问题是我们无法从卫星照片上直接观察到我们所需要的变量——每一个像素点可能只会显示亮度,颜色等。而且一张卫星照片可能有上千万像素点,我们不可能一个个人工去判断。
所以这里我们不妨使用机器学习的方法,首先利用每个像素点的亮度,颜色等数据来预测这个像素点是否存在森林,也就是
,然后再把这个
用到我们的回归中去。


Kristenbaby

赞同来自:

机器学习没接触过
计量和时间序列都学过,不过学的很浅。

个人觉得从时间维度上来说,计量经济学在研究当前指标上更有深度,而时间序列则以时间为重要依据,对当前现象总结,以便于对未来的预测。
从各自涉及领域上,计量经济学更偏重经济学了,时间序列则不然,在各个领域都有非常广泛的应用。

以上

习多朤

赞同来自:

举个例子,是‘用螺丝刀拧螺丝’,‘钉子’,和‘扳手‘的关系,如果在装宜家的家具的时候。

Distinct小小姜

赞同来自:

前面的大神已经将这个问题分析得差不多了,我做一个通俗的补充,计量经济学研究的是,我假设一个idea,认为X和Y有关系,我建立一个模型(符合计量基本假定)并估算参数,解释它们之间相关关系的大小以及可信度,然而,重点来了,它们之间到底是谁影响谁,不知道,其实真的是否关联也不知道,说白了就是无法检测因果。我们经常讲的一个计量的笑话就是,有人写一个非洲国家青年儿童的身高和欧洲国家降雨量也有相关关系,呵呵呵呵。所以在写计量模型相关的实证分析的时候,前面会有一堆理论基础做铺垫,旨在说明这个工作不是白做的,它们就是有关系。。 时间序列是计量中的一种分析方法,根据数据的特征不同而有不同的模型建立以及参数估计方式,时间序列建模与非参建模等等都属于计量的不同处理方式。时间序列数据(不是方法)与其地位并列的是截面数据概念和面板数据概念,用到的知识还是计量的知识。。。旨在说明当数据分布不符合基本线性假定和数据分布假定的时候我该如何建模和估计。(计量这一方面我推荐《高级计量经济学》洪永淼著,虽然写的是高级计量,但是非常简洁严谨没有丝毫废话,可以用来打基础。时间序列推荐Tsay老师的书,不夸张的讲在目前这个年代,你学会这本书,写成的论文拿个硕士学位没问题。)
机器学习我没怎么深入了解过,只能从宏观上讲讲它是要做什么。我也只学习过惩罚线性回归和集成方法的一丢丢内容。从原理上来讲它克服了计量的欠拟合和过拟合的局限,旨在解决函数逼近问题。就是在一个数据集里训练,然后得出X1 X2 …Xn(特征输入)哪个输入对Y(response)的预测结果最重要,这一点是传统意义上的计量模型做不到的。当然如果你把机器学习里的model归为计量那我没法这么讲。这三者并不是并列关系,计量对时间序列是包含关系,机器学习和计量在基础设定方面有交叉,发展方面没什么羁绊,公说公有理 婆说婆有理。它们共同的基础源于数学和统计学知识。(机器学习的书我还没有看到讲金融的比较好的教材,所以就不推荐了,如果说到大数据分析方法我学过马双鸽老师的课,那个时候也不太记得是否和机器学习有关联了。)上述观点仅是本人的一些看法,不周之处还请大家指导!
匿名用户

匿名用户

赞同来自:

这样大而化之的说的话 对 都是应用数学方法解决实际问题
用好用的方法走想走的路线解决特定的问题
对于所选的方法都有相应的或理论的或实践的不同程度的背书

要回复问题请先登录注册