跳至主要內容

OpenAI 直播看点一:全量上线 4o 视频通话,ChatGPT“睁眼看世界”

HelpYou666...大约 6 分钟

OpenAI 直播看点一:全量上线 4o 视频通话,ChatGPT“睁眼看世界”

1. OpenAI 直播

OpenAI 正式官宣了为期十二天的圣诞惊喜活动。从 1265 日上午 10 点开始,将启动为期 12 天的 OpenAI 活动。每个工作日,都会举办一场直播,其中包括展示或发布一些新的内容或,其中包括一些重磅活动和小惊喜。

有熟悉 OpenAI 计划的消息人士称,这些新产品包括备受期待的文本转视频工具 Sora 和一个新的推理模型。不过在网络上,有网友预测了接下来 OpenAI 要发布的一些内容:

第 1 天:发布文本到视频 AI 工具 Sora。

第 2 天:为 ChatGPT 引入圣诞老人灵感的声,增添节日气氛。

第 3 天:通过视觉功能增强 ChatGPT 的高级语音模式。

第 4 天:向免费用户发布 o1-preview,扩展了对高级推理模型的访问。

第 5 天:展示 1 月即将推出的 GPT 智能体。

第 6 天:发布 GPT-4o 图像。

第 7 天:推出新的开发者工具。

第 8 天:展示新的 Dalle。

第 9 天:宣布具有更大上下文窗口的 GPT-NEXT 模型。

第 10 天:发布辩论游戏,教机器辩论玩具问题。

第 11 天:推出 Microscope,这是神经网络模型可视化的集合。

第 12 天:将高级语音模式时间增加至每天 20 小时。

2. 直播第六天

OpenAI 在直播第六天宣布了一系列新功能和更新,其中包括 GPT-4o 的多模态能力和实时视频通话功能。GPT-4o 的高级语音模式能够模仿情感、唱歌、表演,并在社交平台上用于情感交流和口语练习。实时视频功能可以进行实时对话,理解连续动作,并具有记忆能力,使得 AI 仿佛拥有了与人类相似的视觉感知。此外,OpenAI 还推出了一种通过屏幕共享技术来观察用户屏幕内容的实时视频理解功能,这将像一个高级助手一样提供专业建议。这些功能将在一周内对 Pro 和 Plus 用户开放。OpenAI 的这些更新被视为未来 AI 技术的重要步骤,尤其是在视觉理解和交互方面。

如果你还没有将升级到 Plus,可以参考一下这篇文章chatgpt4.0 如何升级?chatgpt 升级到 4.0 保姆级教程open in new window

3. 实时视频通话-灵魂伴侣

在 5 月 14 日的 OpenAI 春季发布会上,该公司揭开了 GPT-4o 的面纱。其中最引人注目的特性,无疑是其原生的多模态能力。大家已经见证了高级语音模式的强大,它能够模仿情感、唱歌、表演。在社交平台某红书和 X 上,许多人已经开始用它来进行情感交流、练习口语等。

在教育界,它无疑是一款极具威力的工具。然而,当时最令人激动的还要数实时视频功能。 它能进行实时对话,理解连续的动作,知晓你的行为。它还具有记忆功能。例如,你与它讨论桌上的一杯特制冰美式咖啡,这杯咖啡造型奇特,颜色为红色,你们聊得非常愉快。切换话题后,过了一分钟,你突然询问刚才那杯咖啡的颜色。它能准确告诉你,是红色。仿佛,AI 首次拥有了与人类相似的视觉感知。

他们还展示了一个有趣的例子,让 ChatGPT 与在场的人聊天,然后询问某个女生的名字,GPT 回答得非常准确,它记住了她。另一个演示是现场教人制作咖啡的场景。我认为,真正的实时视频理解能力,远比语音和文本更为重要。对于我们人类来说,从出生那一刻起,当我们还不会说话、不识字时,我们是通过视觉来理解这个世界的。这是我们认识世界的基石。

今晚,他们宣布这一功能即将上线。没错,是即将上线…… 一周内,将对 Pro 和 Plus 用户开放>>>chatgpt4.0 升级 Plus 方式open in new window

4. 实时理解屏幕-工作搭子

这是一种实时视频理解技术的衍生版本。区别在于,一种方式是通过摄像头捕捉外部现实世界的画面,而另一种方式则是通过类似屏幕共享的技术,让系统观察你的屏幕内容。**实时视频理解功能将在一周内上线。**我认为这个工具极其有用,就像一个随时准备提供专业建议的高级助手。它随时监控你的屏幕,并提供指导。

以下是我能想到的一些简单应用场景:

当你制作 PPT 时,如果觉得页面设计不佳,陷入困境,你可以询问它:

"这页的设计逻辑是否有问题?“或者"这个颜色搭配是否不太协调?有没有更好的建议?”

它能迅速指出关键问题,比如页面文字过于密集,标题应放置在左上角,图片应更换为写实风格,甚至它能立即提供一个最佳方案,迅速解决问题。

再比如,编写代码时,开启屏幕共享,它能实时跟踪你的代码进度,指出潜在错误,甚至直接告诉你哪些变量命名不规范,哪些逻辑需要优化。

你无需亲自调试,它就像你的领导一样,一边观察一边指导。

当然,我理想中的最佳形态,还是与类似于 Computer Use 的智能体结合,直接帮我完成任务,那才是我最渴望的。

例如,在使用 Figma 进行界面设计时,如果设计到一半觉得排版有问题,可以直接对它说:

“整体风格更简约一些,字体换成无衬线体。”

它会立即接管设计,调整文字间距、对齐方式,并提供几种更合适的字体供选择,最终打造出一个更专业的设计方案。

总结

以上就是 OpenAI 直播的看点一:全量上线 4o 视频通话,ChatGPT“睁眼看世界”。后续我还会持续更新。

好文推荐>>>

Ps:如果在升级过程中存在什么问题,需要帮助,可以加我 vx:Victory_lucky_gggo,备注 gpt4,拉你进 gpt 学习交流群

评论
  • 按正序
  • 按倒序
  • 按热度
Powered by Waline v3.1.3