AI日报:Gemini 3 Deep Think模式;OpenAI最强编程AI模型API开放;可灵Avatar 2.0 上线
作者:微信文章AI日报
12月5日•AIbase
1、KlingAI Avatar 2.0 上线即爆火:5 分钟唱跳一键生成,数字人正式告别“面瘫”时代
2、谷歌推出 Gemini 3 Deep Think 模式,AI 推理能力显著提升
3、豆包手机助手发布调整公告:AI 操作能力将进入规范化阶段
4、微软发布 VibeVoice 0.5B:仅0.5B参数却实现300毫秒实时开口
5、Android XR 特别发布会前瞻:Gemini 驱动智能眼镜首秀,谷歌能否借“空间计算”扳回一城?
6、最强编码模型上架!GPT-5.1-CodexMax 现已接入响应 API
7、阿里云析言 XiYan-SQL 强势夺冠,全球 SQL 诊断评测榜单第一!
8、高德上线“AI 停车雷达”:分钟级预测车位空闲,北京已率先覆盖
1. KlingAI Avatar 2.0 上线即爆火:5 分钟唱跳一键生成,数字人正式告别“面瘫”时代
KlingAI Avatar 2.0通过多模态导演模块实现从音频到情感表演的智能跃迁,显著提升数字人的表情和动作表现力,为短视频、电商广告与教育内容等领域带来革命性影响。
亮点提要:
✨ Avatar2.0通过多模态导演模块将音频、图像和文本提示转化为连贯故事线。
💡 在表情控制和动作设计上实现质的飞跃,避免早期AI人物的“面瘫”感。
🚀 支持48fps超高帧率与1080p高清输出,用户可通过平台免费试用基础功能。
详情入口:
🔗 https://app.klingai.com/cn/ai-human/image/new
2. 谷歌推出 Gemini 3 Deep Think 模式,AI 推理能力显著提升
谷歌推出了 Gemini 3 Deep Think 模式,显著提升了 AI 的推理能力,特别是在处理复杂的数学、科学和逻辑问题方面。该模式在多个基准测试中表现出色,例如在“人类最后的考试”中取得了41.0%的成绩,而在 ARC-AGI-2 测试中使用代码执行时达到了45.1%。
亮点提要:
🧠 Gemini3Deep Think 模式正式推出,提升推理能力,专注于复杂问题。
📊 在严格基准测试中表现卓越,未使用工具时得分41.0%,使用代码时更达45.1%。
🚀 Ultra 订阅用户可通过简单选择体验这一强大模式,推动 AI 技术进步。
详情入口:
🔗 https://blog.google/products/gemini/gemini-3-deep-think/
3. 豆包手机助手发布调整公告:AI 操作能力将进入规范化阶段
豆包手机助手发布调整公告,宣布将对AI操作手机的部分能力进行规范化调整,以维护平台生态和金融安全。
亮点提要:
📱 AI操作手机功能需用户主动授权,执行过程中可随时终止
🔒 限制AI在App内进行刷分或刷激励的自动化操作
💰 进一步限制银行及互联网支付等金融类应用的代操作行为
4. 微软发布 VibeVoice 0.5B:仅0.5B参数却实现300毫秒实时开口
微软发布全新实时文本转语音模型 VibeVoice-Realtime-0.5B,其小巧的体积和强大的性能为 AI 语音交互带来了新的可能性。该模型不仅支持中英文实时转录与语音生成,还能在多角色对话中保持各自独特的语气、节奏和音色特征,同时具备情感表达和上下文记忆能力,使语音更加自然真实。
亮点提要:
🧠 模型规模小但性能强,仅0.5B参数即可实现接近实时的语音生成。
🗣️ 支持中英文实时转录与语音生成,且能自然呈现多角色对话场景。
💡 具备情感表达和上下文记忆能力,使语音更贴近真人表达。
详情入口:
🔗 https://huggingface.co/microsoft/VibeVoice-Realtime-0.5B
5. Android XR 特别发布会前瞻:Gemini 驱动智能眼镜首秀,谷歌能否借“空间计算”扳回一城?
文章介绍了谷歌即将举办的《The Android Show:XR Edition》特别发布会,重点展示了 Android XR 平台的软件更新与硬件生态,包括软件底座升级、硬件生态亮相以及开发者与可用性等内容。
亮点提要:
🧠 软件底座升级,系统响应速度与多设备协同能力优化,第三方开发者工具链同步更新,降低硬件厂商适配成本。
👓 硬件生态亮相,三星 Galaxy XR 头显将现身演示,智能眼镜原型机或首次公开。
🚀 开发者与可用性,直播后开放技术文档与回放,Android XR SDK 将加入 Gemini Runtime。
6. 最强编码模型上架!GPT-5.1-CodexMax 现已接入响应 API
OpenAI 宣布其最新、最强大的代理编码模型 GPT-5.1-CodexMax 已全面接入响应 API,允许开发者将这一顶级编码智能直接整合到现有应用和生产工作流中。该模型在复杂任务分解、代码生成质量、多步骤推理与自主代理执行能力方面有显著提升。
亮点提要:
🧠 GPT-5.1-CodexMax 是 OpenAI 最新推出的强大编码模型,能够提升复杂任务分解和代码生成质量。
🚀 该模型已全面接入响应 API,开发者可直接整合到现有应用和工作流中。
💡 OpenAI 表示此次更新旨在降低高性能 AI 编程能力的接入门槛,让更多产品和服务拥有编程助手体验。
7. 阿里云析言 XiYan-SQL 强势夺冠,全球 SQL 诊断评测榜单第一!
该评测涵盖了MySQL、PostgreSQL、SQL Server、Oracle等主流数据库系统,题目包括简单查询和复杂操作,整体难度远高于传统测试。析言 XiYan-SQL通过创新手段提升了模型的可执行性和可维护性,并已在阿里云百炼平台上线,提供SQL生成与诊断服务。
亮点提要:
✅ 析言 XiYan-SQL 在 BIRD-CRITIC 评测中斩获第一,超越众多顶尖团队。
📊 该评测涵盖多种主流数据库,难度高于传统 SQL 生成测试。
💻 相关技术和模型已开源,支持开发者进行体验与贡献。
8. 高德上线“AI 停车雷达”:分钟级预测车位空闲,北京已率先覆盖
高德地图推出全新‘AI 停车雷达’功能,通过空间智能感知与 AI 视觉分析技术,实现对城市道路车位占用情况的分钟级推演与动态可视化。该功能已在北京市上线,覆盖数万个道路停车位,标志着导航类应用从‘帮你开到目的地’迈向‘帮你找到停车位’的完整服务闭环。
亮点提要:
🚗 高德地图发布‘AI 停车雷达’功能,提升停车效率。🌆 北京率先上线,覆盖全市数万个道路停车位。📊 该功能推动城市停车资源数字化进程,助力智慧交通体系建设。
↓点击阅读原文,进AIbase官网.
页:
[1]