Herbstzeit 发表于 2007-2-4 15:18

再问一下,如果样本点很少,应该用什么方法呢?还可以做吗?

请问linear regression对样本点的个数有要求吗?样本点的个数如果比较少,比如只有4,5个可以吗?是不是不大好啊?$考虑$

[ 本帖最后由 Herbstzeit 于 2007-2-5 11:48 编辑 ]

spenser 发表于 2007-2-4 21:50

也不一定要特别多。。看的。。因为你预测的之后要做test的,来证明你的方程的可行性。我如果没有记错的话有一个residual 的normality test如果是少量的sample的话,小于100吧。用的是chi quadrat。。我那个时候作了一个50000的就用了别的。。既不清楚了。。jacobe test????$考虑$ 不过也别太少了。5个,6个你弄了,你chef不收货的~~

具体你可以参阅 Basic Econometrics, Damodar Gujarati写的。west point的人~~不过这本书还是蛮流行的。

[ 本帖最后由 spenser 于 2007-2-4 21:52 编辑 ]

leiwang81 发表于 2007-2-4 22:02

不是的,例如一个一维情况,
假设你有5个样本,根据实际经验他们应该分布在一条直线周围,测试结果也是这样,你用最普通的线性回归,得到一个满意的结果,假设你有6个数据,但是其中有一个由于试验的误差,出现重大问题,它远远偏离了,其他的几个点,但是你还是采用一般的回归方式,而不是比如说加权的回归。那么你的结果就会和你想象得不完全一样。而且也不够确切。 6个样本反而不如5个。
我觉得回归是一个让理论和现实测试匹配的过程,如果现实测试是完美的,那么让样本越多越好。如果你的回归方法面面俱到,点多当然好于点少。但是你的测试不是完美的,你对误差的估计也是100%都完全包含在你的回归访法中的。所以重要的是你如何设计你的回归手段,比如说是加权呢,还是不加权,回归的手段应该经可能的考虑,误差可能带来的影响(一般的误差模型都是正态分布模型,这取决于你对样本误差的估计)。多少样本最好,要具体问题具体分析。我觉得只要结果和你的理论预想结果差不多就可以了。

Herbstzeit 发表于 2007-2-5 11:47

谢谢两位的回帖$送花$

如果我只有最多4,5个样本点,但很多潜在的自变量。我想要论证一个因变量与这些自变量有无关系,关系怎样。这样是不是不可行呢?在存在的样本点很少的情况下,应该运用什么方法呢?

spenser 发表于 2007-2-5 14:27

Es ist besser noch ein paar datensätze auszufinden, nicht hier eine ungeöhnliche Auswertungsmethode auszudenken. Datensätze zu finden ist einfacher....

Herbstzeit 发表于 2007-2-5 17:32

不是啊,没有了其他样本点了。

因为我的样本是国家,我论证对象的每一个类别里国家的个数有限,就那么几个国家,世界上再没有其他的了。这可怎么办呢,难道我一开始的想法就是错误的吗?$考虑$

[ 本帖最后由 Herbstzeit 于 2007-2-6 10:46 编辑 ]

leiwang81 发表于 2007-2-5 22:46

其实,回归问题是自己证明自己的说法的手段,如果你说一个变量和你的结果无关,你只要能够在数据上体现出来,那个变量无论怎么变化,你的样本始终在一个微小的范围内活动就可以了。至于这个微小的范围是多小,就看你的接受程度了。你可以定义绝对误差,也可以用相对误差,看你喜欢和使用的场合而定。样本少,只能说你得出的结果得致信度不高,不能说他不对。
我举个例子,如果你有一点(0,0)这是你试验的结果,你说这一点在一条直线y=x上,然后,你说我认为,我的自变量x和y是正比关系,且比例系数为1。然后教授不信,说你的做法不科学。虽然(0,0)位于这条直线上,但是结果很难让人相信。如果你有两个数据分别为(0,0) 和 (1,1),教授说,不错,不过好像还是少了点。于是呢,你又做了10次试验,你说根据这十次试验,我发现,他们却是满足这样的线性关系。这是教授说,好我信了。那你第一的推断对不对呢,也对,就是致信度不高。
当然一个数据得出的结果,基本是不可信的,只要有个几个数据,在满足他们的基础上,得出的结论只是参考。
你不能强求100%的可信,并且正确。只要你的数据总量不是无穷大,对于位置完全未知事物的回归,就没有100%的可信性。
所以回归都是建立在一定的模型,以及它的误差模型的基础上的。当对误差有了认识,就可以采用合适的方法将误差最小化。得到较为精确的模型。
看lz的意思好像也不是什么物理实验什么,得出个大概的结论就好了,样本少分析起来也方便。未尝不是件好事。:)
还有一个验证回归结果的方法,比如说你有5个样本,你做一次回归后得到了模型的参数,然后你用你的模型去计算第6个,第7个样本的值,和实际结果作比较,发现在接受范围内,说明你的回归结果不错。如果发现误差现在还在范围内,但是好像有发散的趋势,说明你的回归是有适用范围的。(可能是你选择的模型的阶数太高了)。

Herbstzeit 发表于 2007-2-6 10:43

非常感谢楼上的回帖$送花$

我是学文科的。数学方面真是学得不好。$汗$ 我想是我设计论证有问题,看起来真的不适合用回归这样做。其实因为我就对回归还比较熟悉$汗$ 让我再想想还有什么别的好办法可以做。数学真是好重要啊~~学什么它都是基本的工具。

eisenstange 发表于 2007-2-6 18:55

同意楼主的观点,数学是理工科,统计学的基础。有时间和兴趣的话,作为消遣,不妨看看下面的链接。

http://www.dolc.de/forum/viewthread.php?tid=434818&extra=page%3D1

celler 发表于 2007-2-8 15:15

原帖由 Herbstzeit 于 2007-2-5 11:47 发表
谢谢两位的回帖$送花$

如果我只有最多4,5个样本点,但很多潜在的自变量。我想要论证一个因变量与这些自变量有无关系,关系怎样。这样是不是不可行呢?在存在的样本点很少的情况下,应该运用什么方法呢?

你说的只是线性回归?即使线性回归,方法也多得是;至于置信区间,那是检验回归好坏的一个标准。
你要根据你的问题来想到底是不是线性的。

你计算因变量与自变量之间的关系,可以用相关系数来算。到网上google“相关系数”或“correlation coefficient”,很简单的。
Excel里面就有现成的相关系数分析功能。相关系数取值-1~1,越接近1,越相关。
你算出所有的相关系数,然后可以设定一个阈值,低于这个值的就认为这两种东西不相关。这样就能把某些“潜在的自变量”给过滤掉了。

另一个方法比较专业一点,叫做“主成分分析”或英文名“PCA”,
就是把影响变化的最主要的变量找出来。

其他还有,我想起来再说吧。
页: [1] 2
查看完整版本: 再问一下,如果样本点很少,应该用什么方法呢?还可以做吗?