多客科技 发表于 2023-11-19 14:07

AI for Science:与其讨论抽象的科学范式,不如多研究具体的科学过程,背后隐藏着AI与Science之间的鸿沟

作者:AI冰板凳
今天,研究AI for Science的人,喜欢谈论范式。如果从事实看,科学家在具体的科学研究中,很少有人会去想自己用的是什么范式;但是,每一个科学家都会去想具体的科学步骤,一步一步应该怎么去做。1、两种范式论

北京科学智能研究院(AI for Science Institute, Beijing)成立于2021年9月,由鄂维南院士领衔。鄂维南院士在《应用数学新时代的曙光》一文中提到两种范式:开普勒范式和牛顿范式。原文摘录如下:
从牛顿时代开始,就出现了两种不同的科学研究范式:开普勒范式和牛顿范式。

开普勒范式的方法即数据驱动的方法,在此方法中人们通过数据分析来提取科学发现。最为经典的例子,开普勒基于数据驱动的方法,总结并研究行星运动定律。在现代科学中,生物信息学为现代开普勒范式的成功提供了更加令人信服的例证。牛顿范式的方法,即基于第一性原理的方法,目标是发现支配我们周围世界或我们感兴趣的事物的基本原理。最好的例子是牛顿、麦克斯韦、玻尔兹曼、爱因斯坦、海森堡和薛定谔等科学大家的研究工作。对于今天的一些最优秀的人才来说,它仍然是一个主要的游乐场。
2、五种范式论

微软研究院科学智能中心(Microsoft Research AI for Science)亚洲区负责人、微软亚洲研究院副院长刘铁岩则提到了科学发现的五种范式。在MEET2023智能未来大会上,刘铁岩介绍了他对AI for Science的理解,以及AI for Science如何作为科学发现的第五范式。第一个范式叫做经验范式,基于经验的观察,是天才科学家对万物万象的总结。比如著名的天文学家开普勒,他通过观察总结出天体运行的规律:“所有的行星围绕太阳运行的轨道都是椭圆的,太阳处在所有椭圆的公共焦点上”。第二个范式是理论范式,指数学家对经验进行数学抽象和推演,比如用于描述经典力学的牛顿运动方程,用来描述电场磁场关系的麦克斯韦尔方程等。第三个范式是计算范式,随着计算机的发明,人们开始有能力求解复杂的物理方程。比如,通过有限元或者有限差分方式求解流体方程,从而有助于人类对于天气预报进行精准预测。第四个范式是数据驱动的范式,这个过程中ML(机器学习)扮演着非常重要的角色,人们使用ML方法来分析数据,寻找规律,并进行预测。第五个范式是AI for Science,它是前四种范式的有机结合,发挥了经验和理论各自的特长,又把AI和计算科学融合在一起。3、科学过程的共性

2001年9月,美国航空航天局JPL实验室的科学家Mjolsness等人在Science上撰文指出:“每个科学领域的科学过程都有它自己的特点,但是,观察、创立假说、根据决定性实验(或观察)检验假说、可理解检验的模型(或理论),是各学科所共有的。对这个抽象的科学过程的每一个环节,机器学习都有相应的发展,我们相信它将导致科学方法中从假说生成、模型构造到决定性实验这些所有环节的合适的、部分的自动化。”按照Mjolsness等人的说法,科学领域的科学过程至少包含三个步骤:(1)通过科学观察获取样本数据;(2)根据样本数据建立科学假说;(3)以科学假说为基础设计决定性实验(或观察),然后根据决定性实验(或观察)的结果来判断假说的真伪。4、被低估的开普勒

无论是数据驱动的开普勒范式还是经验范式,都严重低估了开普勒,因为他几乎整合了当时最前沿的科学技术。本文试着从整个科学过程分析还原开普勒的研究过程。因为开普勒的数据来源与第谷有关,所以需要从第谷开始分析:(1)第谷将裸眼观测技术推向了极致。第谷是职业天文学家,他发现过去的星表预报天象有很大误差。1576年,丹麦国王克里斯蒂安四世把汶岛赐给第谷做研究。在国王的大力资助下,第谷在汶岛建起了4个观象台、一个图书馆、一个实验室和一个印刷厂,人们习惯地称汶岛为“观天堡”。在16世纪的科学家中,除了第谷,恐怕再也找不到第二个人能拥有如此高水平的科研基地了。第谷在那里一直观测至1597年,经过20年的坚守,第谷积累了有史以来最精确、最完整的持续观测记录。(2)依靠强大的数据支撑,第谷本人也提出了非常符合观测结果的宇宙结构。即,地球静止在宇宙中央,太阳和月亮围绕地球转动,其他行星围绕太阳转动。第谷体系是最完善的地心说模型,是托勒密和哥白尼体系之间的折中方案,兼顾了两者的优势,也顺应了传统的神学和物理学观点。它取代了托勒密体系,成为主流学界和天主教会一度认可的宇宙模型。(3)开普勒对数学和天文学都有着很深的造诣。在哥白尼提出日心说以后,数学知识伴随着观测天象的天文知识也得到了发展。1545年,即哥白尼去世后两年,意大利数学家塔尔塔利亚与费罗发表了三次方程的解法。1585年,佛兰德斯的数学家兼工程师斯台文创立了解三次以上方程式的规则。1596年,开普勒综合了当时的数学知识与天文学知识,写了一本书《宇宙的神秘》,他在书中认同哥白尼的观点,并创立了他自己的太阳系早期模型。正是基于开普勒的这些成就,第谷才选择了开普勒作为继承人。(4)开普勒的发现并不是完全基于第谷的数据,而是基于对比数据。即,开普勒发现第谷观测得到的火星位置,与用哥白尼圆模型计算出来的火星位置有微小的误差,两个火星的位置相差了8弧分。这个误差可能会被许多人当作不可避免的误差而忽略,开普勒却抓住了圆形轨道的这一微小差异。(5)开普勒对科学过程的所有步骤都很熟悉。开普勒虽说没有直接参加第谷的观测,但是,他非常熟悉第谷的整套观测流程。在发现误差后,开普勒利用了他的各种知识进行分析与计算后得出结论,第谷的观测误差不会超过1弧分。此时,开普勒完成了对哥白尼圆模型的证伪,认为行星的轨道不是正圆。在证伪过程中,开普勒并没有轻易相信第谷的数据,而是包含了对证伪数据的检验。所以,开普勒对科学过程的所有步骤都很熟悉。说开普勒的发现是数据驱动,比较牵强。(6)从哥白尼的圆模型到椭圆模型,开普勒并不是直接由数据得出。开普勒是从卵形开始猜测,用第谷的观测数据验证。最后,才得到了椭圆模型。在开普勒三定律中,还用到了哥白尼在世时还没问世的三次方程解法。牛顿说他是“站在巨人的肩膀”上,在那些“巨人”中,就包含开普勒。开普勒不但熟悉数学,而且熟悉光学,除了著有《折光学》一书,还发明了开普勒望远镜。后来的牛顿,除了熟悉数学,也熟悉光学,除了著有《光学》一书,还发明了牛顿望远镜。与开普勒同时代的伽利略,也是一位“巨人”,他在力学上做出了重要的贡献。牛顿能够发明微积分,因为在开普勒与牛顿之间还有一位“巨人”,那就是笛卡尔,他发明了解析几何。5、被高估的机器学习

今天,普遍的观点是:机器学习是数据驱动的。据此,提出了所谓“数据驱动的范式”。鄂维南院士之所以提出数据驱动的开普勒范式,应该说也是为了推广数据驱动的机器学习范式。只是,他们都高估了机器学习。如果按照今天的机器学习理论,可能根本就没有开普勒什么事了。(1)今天的主流机器学习是不支持证伪的。开普勒发现的火星位置误差,根本就不叫事,因为这点误差是机器学习理论所允许的。(2)按照机器学习的泛化理论,第谷的地心说模型和哥白尼的圆模型,其实都已经很好了,因为二者的泛化能力都很好。相反,开普勒的椭圆模型反而可能会第一时间受到质疑,即,会被相当多的机器学习专家认为是“过拟合”。面对“过拟合”的质疑,开普勒是百口莫辩。因为机器学习专家们普遍认为,100%准确率不是好事,9X%的准确率反而可能泛化能力更好。下面给出一本机器学习教材(电子书)中该观点的的截图:


(3)为了避免“过拟合”现象出现,机器学习还发明了专门的技术。所以,不管第谷的观测有多认真,再好的数据,也可能被避免“过拟合”的技术“搅黄”了。(4)今天主流的机器学习,不但算法是黑盒的,其实数据也是黑盒的。因为数据驱动的后果,就是根本没有人去研究科学观察。机器学习通常只会对数据进行各种假设,比如独立同分布假设。6、AI与Science的鸿沟

当前的AI与Science之间有道鸿沟,那就是证伪。AI不支持证伪,而很多Science理论是支持证伪的,二者的观念是天差地别。比如黎曼猜想,现在已经经过无数次的证实,然而,只要有一次证伪,黎曼猜想就被证伪了。相反,机器学习模型,只要对上1万次,错上1千次,也可能被称为“好模型”,毕竟准确率“高”达90%。比如ImageNet大赛,深度学习不过是把准确率从74%提高到85%,就一战成名。因为数据驱动,当前的AI放弃了科学观察。如果不了解科学观察,仅仅依靠数据驱动,高维海量数据就成了必然。面对高维海量数据,PAC学习就成了必然。PAC学习的结果,放弃证伪就成了必然。当AI放弃了证伪,检验模型的好坏就成了一个更难的问题。你说你的模型好,他说他的模型好,大家都说自己的模型好。反正,模型对与不对,都可以有“合理”的解释,只是风险大小不同而已。反观历史上的科学“巨人”伽利略、开普勒和牛顿,他们不但重视科学观察,而且对科学观察的工具与原理也都是相当精通。伽利略亲自动手打磨镜片,制作出了当时最好的望远镜。开普勒改良了伽利略的望远镜(开普勒望远镜是近代折射望远镜的基础之一),并且开创和发展了研究人类视觉理论的正确道路。牛顿则设计和制造了第一架反射式望远镜。7、总结

科学真正得到飞速发展的原因在于专业细分。虽然科学过程有共性,但是,具体到每个具体的专业领域,又有不同的个性。比如,天文学需要用天文望远镜观察,微生物学则需要用显微镜观察,医学的突破则是在人体解剖学得到发展以后对人体内部构造进行深入观察,……,所以,有“隔行如隔山”的说法。每个专业领域的个性,只有深入到具体的科学过程才能够发现,谈抽象的范式于事无补。所谓的AGI ( Artificial General Intelligence,通用人工智能),有寻找免费午餐的嫌疑。然而,NFL(No Free Lunch)定理早已证明,没有免费的午餐。“AI+具体的专业”,可能才是AI for Science的最好模式。
页: [1]
查看完整版本: AI for Science:与其讨论抽象的科学范式,不如多研究具体的科学过程,背后隐藏着AI与Science之间的鸿沟