萍聚社区-德国热线-德国实用信息网

 找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 1177|回复: 11

[数学] 再问一下,如果样本点很少,应该用什么方法呢?还可以做吗?

[复制链接]
发表于 2007-2-4 15:18 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

x
请问linear regression对样本点的个数有要求吗?样本点的个数如果比较少,比如只有4,5个可以吗?是不是不大好啊?$考虑$

[ 本帖最后由 Herbstzeit 于 2007-2-5 11:48 编辑 ]
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
发表于 2007-2-4 21:50 | 显示全部楼层
也不一定要特别多。。看的。。因为你预测的之后要做test的,来证明你的方程的可行性。我如果没有记错的话有一个residual 的normality test如果是少量的sample的话,小于100吧。用的是chi quadrat。。我那个时候作了一个50000的就用了别的。。既不清楚了。。jacobe test????$考虑$ 不过也别太少了。5个,6个你弄了,你chef不收货的~~

具体你可以参阅 Basic Econometrics, Damodar Gujarati写的。west point的人~~不过这本书还是蛮流行的。

[ 本帖最后由 spenser 于 2007-2-4 21:52 编辑 ]

评分

1

查看全部评分

Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
发表于 2007-2-4 22:02 | 显示全部楼层
不是的,例如一个一维情况,
假设你有5个样本,根据实际经验他们应该分布在一条直线周围,测试结果也是这样,你用最普通的线性回归,得到一个满意的结果,假设你有6个数据,但是其中有一个由于试验的误差,出现重大问题,它远远偏离了,其他的几个点,但是你还是采用一般的回归方式,而不是比如说加权的回归。那么你的结果就会和你想象得不完全一样。而且也不够确切。 6个样本反而不如5个。
我觉得回归是一个让理论和现实测试匹配的过程,如果现实测试是完美的,那么让样本越多越好。如果你的回归方法面面俱到,点多当然好于点少。但是你的测试不是完美的,你对误差的估计也是100%都完全包含在你的回归访法中的。所以重要的是你如何设计你的回归手段,比如说是加权呢,还是不加权,回归的手段应该经可能的考虑,误差可能带来的影响(一般的误差模型都是正态分布模型,这取决于你对样本误差的估计)。多少样本最好,要具体问题具体分析。我觉得只要结果和你的理论预想结果差不多就可以了。

评分

1

查看全部评分

Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
 楼主| 发表于 2007-2-5 11:47 | 显示全部楼层
谢谢两位的回帖$送花$

如果我只有最多4,5个样本点,但很多潜在的自变量。我想要论证一个因变量与这些自变量有无关系,关系怎样。这样是不是不可行呢?在存在的样本点很少的情况下,应该运用什么方法呢?
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
发表于 2007-2-5 14:27 | 显示全部楼层
Es ist besser noch ein paar datensätze auszufinden, nicht hier eine ungeöhnliche Auswertungsmethode auszudenken. Datensätze zu finden ist einfacher....
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
 楼主| 发表于 2007-2-5 17:32 | 显示全部楼层
不是啊,没有了其他样本点了。

因为我的样本是国家,我论证对象的每一个类别里国家的个数有限,就那么几个国家,世界上再没有其他的了。这可怎么办呢,难道我一开始的想法就是错误的吗?$考虑$

[ 本帖最后由 Herbstzeit 于 2007-2-6 10:46 编辑 ]
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
发表于 2007-2-5 22:46 | 显示全部楼层
其实,回归问题是自己证明自己的说法的手段,如果你说一个变量和你的结果无关,你只要能够在数据上体现出来,那个变量无论怎么变化,你的样本始终在一个微小的范围内活动就可以了。至于这个微小的范围是多小,就看你的接受程度了。你可以定义绝对误差,也可以用相对误差,看你喜欢和使用的场合而定。样本少,只能说你得出的结果得致信度不高,不能说他不对。
我举个例子,如果你有一点(0,0)这是你试验的结果,你说这一点在一条直线y=x上,然后,你说我认为,我的自变量x和y是正比关系,且比例系数为1。然后教授不信,说你的做法不科学。虽然(0,0)位于这条直线上,但是结果很难让人相信。如果你有两个数据分别为(0,0) 和 (1,1),教授说,不错,不过好像还是少了点。于是呢,你又做了10次试验,你说根据这十次试验,我发现,他们却是满足这样的线性关系。这是教授说,好我信了。那你第一的推断对不对呢,也对,就是致信度不高。
当然一个数据得出的结果,基本是不可信的,只要有个几个数据,在满足他们的基础上,得出的结论只是参考。
你不能强求100%的可信,并且正确。只要你的数据总量不是无穷大,对于位置完全未知事物的回归,就没有100%的可信性。
所以回归都是建立在一定的模型,以及它的误差模型的基础上的。当对误差有了认识,就可以采用合适的方法将误差最小化。得到较为精确的模型。
看lz的意思好像也不是什么物理实验什么,得出个大概的结论就好了,样本少分析起来也方便。未尝不是件好事。:)
还有一个验证回归结果的方法,比如说你有5个样本,你做一次回归后得到了模型的参数,然后你用你的模型去计算第6个,第7个样本的值,和实际结果作比较,发现在接受范围内,说明你的回归结果不错。如果发现误差现在还在范围内,但是好像有发散的趋势,说明你的回归是有适用范围的。(可能是你选择的模型的阶数太高了)。

评分

1

查看全部评分

Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
 楼主| 发表于 2007-2-6 10:43 | 显示全部楼层
非常感谢楼上的回帖$送花$

我是学文科的。数学方面真是学得不好。$汗$ 我想是我设计论证有问题,看起来真的不适合用回归这样做。其实因为我就对回归还比较熟悉$汗$ 让我再想想还有什么别的好办法可以做。数学真是好重要啊~~学什么它都是基本的工具。
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
发表于 2007-2-6 18:55 | 显示全部楼层
同意楼主的观点,数学是理工科,统计学的基础。有时间和兴趣的话,作为消遣,不妨看看下面的链接。

http://www.dolc.de/forum/viewthr ... &extra=page%3D1
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
发表于 2007-2-8 15:15 | 显示全部楼层
原帖由 Herbstzeit 于 2007-2-5 11:47 发表
谢谢两位的回帖$送花$

如果我只有最多4,5个样本点,但很多潜在的自变量。我想要论证一个因变量与这些自变量有无关系,关系怎样。这样是不是不可行呢?在存在的样本点很少的情况下,应该运用什么方法呢?


你说的只是线性回归?即使线性回归,方法也多得是;至于置信区间,那是检验回归好坏的一个标准。
你要根据你的问题来想到底是不是线性的。

你计算因变量与自变量之间的关系,可以用相关系数来算。到网上google“相关系数”或“correlation coefficient”,很简单的。
Excel里面就有现成的相关系数分析功能。相关系数取值-1~1,越接近1,越相关。
你算出所有的相关系数,然后可以设定一个阈值,低于这个值的就认为这两种东西不相关。这样就能把某些“潜在的自变量”给过滤掉了。

另一个方法比较专业一点,叫做“主成分分析”或英文名“PCA”,
就是把影响变化的最主要的变量找出来。

其他还有,我想起来再说吧。

评分

1

查看全部评分

Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

手机版|Archiver|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2025-2-1 18:52 , Processed in 0.070444 second(s), 18 queries , MemCached On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表