OpenAI 重大更新！自 GPT-4发布以来最强大的功能升级：ChatGPT 现已支持「视听口语一体化」

这次更新是自引入GPT-4以来，OpenAI进行的最大改进。付费用户将在未来两周内获得这些功能。

另外，OpenAI网站上提供了一个宣传视频，展示了与的交流演示。在视频中，用户向ChatGPT询问如何升起自行车座椅，并分享了相关图片和使用手册，ChatGPT会做出反应并给出建议。

关于这些功能是如何工作的，目前OpenAI并没有公布具体技术细节。根据其他公司的研究，多模态人工智能模型通常会使用共享的编码空间将文本和图像转换，从而可以通过相同的神经网络处理不同类型的数据。一种可能的技术是使用CLIP将视觉数据和文本数据整合到同一个潜在空间中，以实现跨文本和图像的上下文推理。此次大规模推广新功能正值聊天机器人领域的人工智能竞赛日益升级之际。目前，诸如 OpenAI、微软、谷歌和Anthropic等公司都在努力鼓励消费者采纳生成式人工智能技术，并竞相发布新的聊天机器人应用程序和特性。其中，谷歌已经宣布了Bard聊天机器人的一系列更新，微软则为必应添加了视觉搜索功能。

根据PitchBook的报道，今年早些时候，微软扩大了对 OpenAI的投资，追加了100亿美元，成为本年度最大的人工智能投资。据报道，在今年4月，该初创公司完成了3亿美元的股票出售，估值在270亿至290亿美元之间，投资方包括红杉资本（Sequoia Capital）和Andreessen Horowitz等公司。

专家们对人工智能生成的合成声音提出了关注，这种技术可以让用户获得更自然的体验，但也可能会产生更令人信服的深度伪造。网络威胁行为者和研究人员已经开始探索如何利用深度伪造来渗透网络安全系统。

在周一的公告中， OpenAI承认了这些问题，并表示合成声音是与其直接合作过的配音演员创作的，而不是从陌生人那里收集来的。

不过，该公司尚未提供关于 OpenAI将如何使用消费者语音输入或如何保护数据（如果使用的话）的信息。根据该公司的服务条款规定，「在适用法律允许范围内」，消费者拥有其输入内容的所有权。

引述了其有关语音交互指南中所述内容，指出不会保留音频剪辑，并且这些剪辑本身并不用于改进模型。但该公司也指出，在此过程中转录被视为输入，并可能用于改进大型语言模型。