🤖 公司将在1月培训视频模型,CEO表示是平台的自然发展,引入生成视频行业竞争动态。
阿里巴巴开源项目DreamTalk,能让人物头像栩栩如生地说话,支持多语言、歌曲、嘈杂音频匹配,开放更多开发者创新。
“I”:视频输入。GPT-4V对视频的理解还相当原始,因为它将视频视为一系列离散图像。减少信息冗余的最聪明方法是什么?学习目标应该是什么?下一帧预测与下一个单词预测有着明显的类比关系,但它是否是最佳的?如何与语言交错?如何引导机器人和人工智能的视频学习?业界尚未达成共识。
微软将推出一款围绕构建的设备,它已经开始将AI伴侣融入Office等软件产品中。
重新定义业务运营: