《科创板日报》12 月 13 日讯(编辑 正大期货)在技术分享日的第六天舞台上,OpenAI 宛如一位怀揣惊喜的魔术师,终于亮出了更贴近其 “本心” 的奇妙 “魔法”—— 为 ChatGPT 开启了高级语音模式,此模式犹如一把神奇的钥匙,解锁了实时视频通话、屏幕共享和图像上传等一系列令人惊叹的新功能。
为何说这是更贴近 “本心” 之举呢?OpenAI CEO Altman 此前在与 Salesforce 进行专访时,曾如一位怀揣梦想的影迷般袒露心声,他直言自己最为钟情的 AI 电影乃是《她》(《Her》),那是一个讲述男人与他的 AI 虚拟助手之间动人心弦爱情故事的影片。Altman 感慨道:“对话语言界面的构想具备令人难以想象的前瞻性。” 据 The Information 报道,Altman 心中怀揣着一个宏伟蓝图,他期望有朝一日能够精心雕琢出一款如同《她》中那般的 AI 助理,一个能够闪电般快速响应、与人类心意相通的虚拟助手。在那部电影里,机器人女友恰似具身智能的终极完美形态,可与人毫无障碍地交互,仿佛是灵魂伴侣般的存在。
回首往昔,ChatGPT 的 DAN 模式(Do anything now 的简称)曾一度惊艳众人。它宛如一位善解人意的朋友,允许 AI 以更为随性自在的方式与用户倾心交谈,其 “人味儿” 浓郁得让人拍案叫绝。它不仅能够实现低延迟的流畅交流,还如同技艺精湛的演员般模仿人类语气,为用户慷慨提供情绪价值,让人们初尝 AI 人性化交互的魅力。而此次,ChatGPT 更是实现了巨大飞跃,它不仅能如聪慧的精灵般听会说,还宛如被赋予了视觉魔力,借助摄像头这双 “眼睛”“睁眼看世界”,感知周围的一切。
在此次分享直播的聚光灯下,CEO Sam Altman 并未现身,而是由 OpenAI 的数位得力干将闪亮登场。其中包括首席产品官 Kevin Weil、产品经理 Jackie Shannon,以及负责多模态的技术团队成员 Michelle Qin 和 Rowan Zellers 等四位员工,他们宛如知识渊博的向导,兴致勃勃地介绍了这些令人耳目一新的更新功能。
在高级语音模式的众多功能中,实时视频通话功能无疑是最为耀眼的明珠。当 OpenAI 的团队成员依次与 ChatGPT 进行视频问候并彼此熟悉之后,一场精彩的 “测试” 拉开了帷幕。有人好奇地发问:带着驯鹿角的同事叫什么?ChatGPT 仿若拥有超强记忆力的智者,瞬间用圣诞老人限定语音给出了精准答案,其 “记忆” 能力展露无遗,令人啧啧称奇。
紧接着,团队又为我们呈现了一场生动的教学演示。他们展示了 ChatGPT 如何耐心地教人操作手冲咖啡设备,这一切只需与 ChatGPT 轻松拨打一通 “视频通话” 即可实现。神奇的是,ChatGPT 能够依据用户面前摆放的器具,如同贴心的咖啡大师般,手把手地悉心教你完成每一个步骤。在整个演示过程中,ChatGPT 的声音自然而亲切,仿佛邻家好友在耳边低语。它还会巧妙地调整语气,甚至像人类一样发出爽朗的笑声,让人不禁沉浸其中,仿佛真的在与一位热情的咖啡达人互动。
而屏幕共享功能则宛如一座沟通的桥梁,通过屏幕共享的独特方式,让 ChatGPT 能够 “看” 到用户的屏幕,这无疑是一种强大的实时视频理解能力。用户只需轻点右下角的高级语音模式图标,在下拉菜单中优雅地选择分享屏幕,便能迅速获得 ChatGPT 针对性的专业帮助。OpenAI 团队成员成功与其共享屏幕后,让 ChatGPT 浏览自己的短信并请求指导回复,ChatGPT 再次展现出 “高情商” 的一面,它机智地建议夸赞对方的圣诞装饰,尽显其聪慧与贴心。
据介绍,高级语音模式犹如一位精通多国语言的大师,支持超过 50 种语言,还提供 9 种逼真的输出语音选项,且每种语音都被赋予了独特的语气和鲜明的特征。而这一切背后的强大支撑 ——GPT - 4o,不仅能够如同神奇的翻译官般将语音精准转换为文本,还具备理解和标记音频诸多其他功能的卓越能力,例如敏锐地捕捉呼吸节奏和细腻的情感变化。
支持 50 多种语言的 ChatGPT 仿若一位无所不能的智能伙伴,能够实时理解现实世界的各种场景。这不仅让 ChatGPT 作为 AI 陪伴工具的用户体验感如火箭般大幅提升,仿佛从地面一跃冲向浩瀚星空,也为打造更高效强大的 AI 教育工具树立了光辉的典范,照亮了未来 AI 应用于教育领域的广阔道路。
值得一提的是,上述这些令人心驰神往的功能即日起便在 ChatGPT 移动应用中盛大推出。在接下来的一周时间里,它们就像逐渐绽放的花朵,将向所有团队用户以及大多数 Plus 和 Pro 用户徐徐开放,让更多用户能够亲身领略 ChatGPT 高级语音模式的独特魅力与无限潜力,共同见证 AI 交互新时代的蓬勃兴起。