中国企业报集团主管主办

中国企业信息交流平台

微博 微信

OpenAI推“王炸”新模型 聪明又快速还会提供情绪价值

2024-05-15 11:18 来源:解放日报 次阅读
 
OpenAI推“王炸”新模型 聪明又快速还会提供情绪价值

智能时代的一次进化

  ■在“高智商”的加持下,GPT-4o的反应速度跳上了新台阶。它最快能够在232毫秒内响应语音输入,平均响应时长约320毫秒,这大约与人类对话相当

  ■有媒体称这预示着“智能时代的一次进化”,未来移动设备中的互联网可能会被浓缩在一个程序之中,用户可以通过它解决一切需求:发短信、导航、识物、打车等

  本报记者 查睿

  Sora之后,美国开放人工智能研究中心(OpenAI)昨天凌晨推出“王炸”新模型GPT-4o。“o”是Omni(全能模型)的缩写。GPT-4o不仅能够实时处理文本、音频和图像,还采用全新的语音交互模式,大幅提升人机对话的响应速度,几乎与真人对话相差无几,它还会看人脸色、讲笑话……总之,AI更像人,甚至更像一个朋友了。

  在GPT-4o的“人性”背后,大模型正进入多模态发展的新阶段。模型不再追求长文本的单一的语言对话,视觉、语音乃至情感都成为模型参数中的关键。对如今的“百模大战”而言,这一变化是危机还是商机?

  聪明又快速

  作为ChatGPT的基础技术模型,GPT-4o的能力将直接影响ChatGPT的用户体验。“GPT-4o既聪明又快速,是自然的多模态。”OpenAI CEO山姆·奥特曼评价。

  GPT-4o有多聪明?

  根据OpenAI的发布会和官网披露的信息所示,GPT-4o不仅可以识别手写字体,还能解答数学方程式,甚至还能识别图像中的人物微表情。

  根据传统基准测试,GPT-4o的性能对比GPT-4 Turbo(OpenAI去年11月发布的大模型)基本都处于优势,对比其他模型更是大幅领先。具体来说,GPT-4o在英语文本和代码上的性能与GPT-4 Turbo类似,但在非英语文本上的性能显著提高,与现有模型相比,GPT-4o在视频和音频方面表现尤为出色。

  在“高智商”的加持下,GPT-4o的反应速度跳上了新台阶。

  它最快能够在232毫秒内响应语音输入,平均响应时长约320毫秒,这大约与人类对话相当。如果对320毫秒的突破没有直观印象,不妨看看上一代模型的成绩:语音对话模式下,ChatGPT的平均响应时长为2.8秒(基于GPT-3.5)和5.4秒(基于GPT-4)。

  GPT-4o之所以这么快,离不开全新的神经网络处理流程。

  “我们现在常见的‘Siri’‘小爱同学’等语音助理,以及GPT-3.5等上代大模型对语音对话的处理能力慢,至少需要三个步骤,反应时间和处理速度延迟感强。”国内某AI企业技术专家解释称,第一步,音频转文本将人的指令转化为文本输入;第二步,机器对文本理解并输出文本;第三步,文本转语音“说”给用户,这才完成了语音对话的流程。“这样的模式不仅慢,而且会遗漏许多语音中的信息熵值,也会影响对话的连贯性。”

  在GPT-4o上,OpenAI跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一模型来处理,实现真正的多模态交互。

  高智商叠加反应快,GPT-4o还模仿了人类的情感和幽默感,更具人情味。难怪山姆·奥特曼称之为“人类级别的响应”。

  基于GPT-4o的天赋,ChatGPT不仅能实时语音对话,还能听懂用户对话的不同语气和情绪状态,还能相应生成不同的情感表达,甚至可以要求GPT-4o唱歌,对话时几乎感受不到僵硬的AI感。

  经过OpenAI的现场展示,不少人认为,会提供情绪价值的“AI伴侣”已触手可及。

  国内模型存代际差异

  “现在主打情感陪伴的AI创业公司可以退场了。”惊讶于GPT-4o强大的共情能力,不少细分AI赛道隐隐感受到了危机。

  此前,ChatGPT主要追求性能和生产力,不少创业公司错位竞争,打造了一批“类人”AI产品,也吸引了部分用户。比如InflectionAI的AI机器人Pi诞生一年就收获了百万级别的日活用户。国内大模型公司MiniMax推出一款名为Glow的虚拟聊天产品,仅四个月时间也吸引了数百万用户。

  不同于Pi等纯陪伴型的机器人,GPT-4o既能当帮手,还是能开玩笑的“多面手”,无形中提高了AI的创业门槛。

  “GPT-4o使得市场对AI产品的期望值大幅提高,创业公司需要投入更多资源来开发和优化其AI模型。”上海市人工智能行业协会秘书长钟俊浩表示,如OpenAI、谷歌、苹果等大公司,能够更快地推出高性能AI模型,导致市场资源向这些大公司集中,初创公司难以获取足够的市场份额和投资。

  不仅是创业公司,国内AI巨头的压力也不小。

  目前,国内AI在多模态模型训练方面主要采用图像和文字联合训练,语音则是通过单独的模型进行处理并拆解完成上下游任务。与GPT-4o高度拟人化的多模态联合训练相比,仍存在代际差异。

  “据我了解,目前,国内如上海人工智能实验室、字节跳动、阿里和Minimax等企业也在进行类似的多模态联合训练研究,但很难说已经有能够匹敌GPT-4o的产品。”不过,钟俊浩同时表示出乐观,凭借国内巨头的研发能力,追赶GPT-4o并非遥不可及,在国内算力基础设施日益完善的前提下,“平替”产品的研发周期会大幅缩短。

  据记者了解,商汤近期推出了商量拟人大模型“SenseChat-Character”,支持个性化角色创建与定制、知识库构建、长对话记忆、多人群聊等功能,可实现行业领先的角色对话、人设及剧情推动能力,可以广泛应用于情感陪伴、影视动漫IP角色、明星网红AI分身、语言角色扮演游戏等拟人对话场景。

  多模态交互是大势所趋

  “大模型发展一年以来,能力快速上升的同时,发展趋势也更加清晰。”阿里云首席技术官周靖人认为,从单一语言模型到多模态混同发展是大势所趋。

  多模态模型,通常指能同时处理和整合多种类型数据(如文本、图像、声音等)的大模型,GPT-4o的横空出世便是多模态模型的集大成。

  国内也在争取抓住多模态的东风,也取得了斐然的成绩。

  据第三方统计,2023年,国内多模态AI概念股研发支出合计达到327.53亿元,占营收比例为11.2%,这一比例是同期A股整体水平的4.46倍。云从科技-UW、格灵深瞳、阿尔特、虹软科技等概念股研发支出占营收比超过50%,相当于拿出超一半的营收投入研发。

  5月9日,阿里云发布的通义千问2.5,其多模态模型已初具影响力,如视觉理解模型Qwen-VL-Max在多个多模态标准测试中超越Gemini Ultra和GPT-4V,目前已在多家企业落地应用。当前,通义已发展出文生图、智能编码、文档解析、音视频理解等能力。

  14日,腾讯也宣布旗下混元文生图大模型全面升级,升级后采用了与Sora一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。评测数据显示,混元文生图模型整体能力属于国际领先水平。

  作为OpenAI的春季升级产品,GPT-4o在多模态上的出色表现,更让业界对即将到来的GPT-5产生浓厚兴趣。

  钟俊浩预计,GPT-5在多模态的基础上将进一步强化多模态交互中的表现,不仅能够处理文本,还能通过摄像头、麦克风等设备直接与现实环境互动。例如,通过摄像头识别物体并执行相应的指令,这将大大提升AI在现实场景中的实用性和交互体验。同时,GPT-5还可与第三方平台无缝整合,例如智能家居设备及办公系统等,以扩展其应用场景。

  这也给AI创业公司带来了新商机。“创业公司不妨利用OpenAI提供的API(编程接口)来增强其产品功能,在垂直领域找到与科技巨头的互补点,或针对特定行业或用户需求,开发定制化解决方案。”钟俊浩建议。

点赞()
上一条:OpenAI推“王炸”新模型 聪明又快速还会提供情绪价值2024-05-15
下一条:没有了

相关稿件

AI赛道开年王炸!震撼级产品Sora爆火,AI板块代币大幅上涨,哪些标的值得布局? 2024-02-22
王小川:大模型的机会不一定落在大厂里 2023-08-09
大模型,冷静! 2023-07-25
工业产业大模型应用持续落地 发挥技术价值的关键在于产业厚度 2024-01-09
华为发布大模型时代AI存储新品 2023-07-15
国务院国有资产管理委员会 中国企业联合会 中国企业报 中国社会经济网 中国国际电子商务网 新浪财经 凤凰财经 中国报告基地 企业社会责任中国网 杭州网 中国产经新闻网 环球企业家 华北新闻网 和谐中国网 天机网 中贸网 湖南经济新闻网 翼牛网 东莞二手房 中国经济网 中国企业网黄金展位频道 硅谷网 东方经济网 华讯财经 网站目录 全景网 中南网 美通社 大佳网 火爆网 跨考研招网 当代金融家杂志 借贷撮合网 大公财经 诚搜网 中国钢铁现货网 证券之星 融易在线 2014世界杯 中华魂网 纳税人俱乐部 慧业网 商界网 品牌家 中国国资报道 金融界 中国农业新闻网 中国招商联盟 和讯股票 经济网 中国数据分析行业网 中国报道网 九州新闻网 投资界 北京科技创新企业诚信联盟网 中国白银网 炣燃科技 中企媒资网 中国石油化工集团 中国保利集团公司 东风汽车公司 中国化工集团公司 中国电信集团公司 华为技术有限公司 厦门银鹭食品有限公司 中国恒天集团有限公司 滨州东方地毯集团有限公司 大唐电信科技股份有限公司 中国诚通控股集团有限公司 喜来健医疗器械有限公司 中国能源建设股份有限公司 内蒙古伊利实业集团股份有限公司 中国移动通信集团公司 中国化工集团公司 贵州茅台酒股份有限公司