首先需要保证AI的“可解释性和透明性(Explainability and Transparency)”。随着AI在决策系统中的应用越来越广,研究者们致力于确保AI的决策过程可以被人类理解,减少“黑箱”效应。需要建立适应技术快速迭代的监管框架和动态治理机制,例如“监管沙盒”和跨国协调机制。需要开发可解释性工具,增强AI透明度。理解AI如何做出决定是避免不合预期或危险行为的关键。
其次要解决AI的控制权问题(AI Control Problem)。研究如何设计和部署AI系统,以确保它们不会产生无法预见的行为或“觉醒”以后的危害。例如,“安全约束”、“价值对齐”和“目标稳定性”等概念便是确保AI行为可控的核心。