再次炸天的OpenAI大模型生态初现

时间:2023-11-08 来源：原创/投稿/转载作者：管理员点击:

　　一夜醒来，大模型圈一只脚踏入了Agent的世界，另一只脚则踏入GPT Store生态的河流中。

　　美东时间11月6日，OpenAI开发者大会正式开启，创始人兼CEO山姆·奥特曼站在台上，45分钟的密集输出，再次展示了什么叫“遥遥领先”。

　　一是技术能力:GPT-4Turbo升级了6大新能力，包括128K的上下文长度、更强的控制能力，模型的知识升级、多模态能力（语音和CV）、模型微调定制和更高速率的限制，性能升级的同时，还对API调用的价格进行了下调;

　　二是可复制的能力:从原来的GPT到GPTs，用户可以打造专属于自己的GPT助手，企业可通过OpenAI提供的全套工具链“all tools”在企业内部建设有价值的工具，同时也可以深入让GPTs进化为一个个Agents，为智能体做准备;

　　三则是生态能力:企业不仅可以打造GPTs，更能将其上架在市场内，即GPT Store，可分享给其他用户使用，以及获得分成，类App Store的商业生态由此为出发点。

　　正如网易有道CEO周枫所言，“这次模型上主要是性能和成本的优化，而在应用和生态方面，做了很多LangChain（开发工具链），LlamaIndex(开发数据框架)这些项目类似的工作，最终就是要实现以智能体作为AI App的愿景。”

　　总之，OpenAI提供的生态能力解决了当下大模型发展的几个重要难点，而在此之上，大模型的应用层将迎来进一步爆发。

　　OpenAI发布之后，光锥智能在与多位国内知名大模型创业者交流中，也感受到了大家对行业前景的期待，“OpenAI的多模态能力开放，对开发者是很大的利好，可以做的事情的边界得到进一步拓展，我预计会有很多新的玩法出现。”月之暗面创始人杨植麟对光锥智能称。

　　“有需求，打造生态，找落地。”OpenAI首届开发者大会结束后，某家国内大模型明星公司 CEO 对光锥智能发表了极为简短，却信息量极大的点评。

　　市场对ChatGPT的需求，无疑是巨大的。在发布会的开始，奥特曼报告了 OpenAI 平台和产品的一些数据，截至目前，已经有大约200万开发人员在其API上构建各种各样的应用，超过92%的全球500强企业正使用其产品，ChatGPT的周活跃用户达到大约一亿。

　　自GPT3.5问世到现在，每一次的升级都引领着大模型的下一个技术方向，不过，这次OpenAIGPT-4升级后的Turbo版本更像是查漏补缺。

　　首先是更长的上下文本长度，GPT-4Turbo上下文任务长度扩展至128K，相当于一本书的300多页，是 GPT-4支持的8K上下文的16倍。不仅如此，奥特曼还强调在扩展文本长度的同时，还应该保持模型的准确性。

　　其次是弥补OpenAI一直以来的短板——安全可控和知识库更新速度。针对前者，推出了名为Json Mode的新功能，确保开发人员更容易调用API，提升对模型输入和输出的控制;即将推出“Copyright Shield”（版权保护）功能，若其企业和API用户面临版权侵权诉讼，OpenAI将为其承担相应费用。针对后者，OpenAI平台支持用户导入文档、数据库来更新大模型的认知，同时还将新升级后的GPT-4Turbo认知理解更新到了2023年4月。

　　最后，此次更新中，OpenAI的多模态能力开放进入到了一个全新的阶段。上一个时期，OpenAI用了一年多的时间，实现了ChatGP能说、能看、能听，而现在才到了多模态能力释放的节点。DALL-E3、文生语音模型TTS（text-to-speech）、Whisper V3都将通过API的形式开放给开发者使用。

　　奥特曼表示，不断有开发者来向其抱怨，GPT-4定价太贵，也正是基于此，OpenAI这回干脆来了个大模型降价促销。

　　降价后的GPT-4Turbo输入token价格是GPT-4的三分之一，输出token价格是原来的二分之一;GPT-3.5Turbo4K 精调版本输入token价格是此前的三分之一，输出token价格是原来的二分之一;GPT-3.5Turbo16K精调版本输入token价格是之前的四分之一。

　　正如奥特曼所言开发者的需求是驱动OpenAI降价的根本原因，这背后还有技术、商业等多重因素。

　　从技术降本看，根据外媒爆料，OpenAI此次可能将Stateless API变为Stateful API，奥特曼此前曾表示，基于Stateful API，用户不用再“重复一遍一遍地为同样的历史对话付费”，理论上Stateful API形式可将大模型应用的开销削减为原来的二十分之一。

　　在商业上，OpenAI也一直在寻找突破点，从API、ChatGPT个人版再到企业版，一直在探索商业化。但其对手却未给喘息的机会，微软、Salesforce、开源生态主导者Meta都在以更具性价比的方式，背后“偷袭”OpenAI，商业化的紧迫感与日俱增。

　　对初创企业、开发者而言是落地的机会，对OpenAI这类公司也是挑战，由降价而带来的或许是技术能力、资源分配、算力等多方面的挑战。

　　“在综合考量后，我们优先考虑了价格，但速度却不能同时兼得，这将是接下来研究的重点”，奥特曼道。

　　光锥智能在与多位大模型创业者交流过程中发现，很多创业者不是缺乏好点子和创业想法，而是受困于数据、算力、工具、部署、训练、推理等一个个的技术难题。

　　比如，知乎上一位基于大模型开发的对话解谜小游戏的开发者，就因为游戏用户数量远超预期，导致算力不足而被迫关闭了整个游戏，留给玩家的只有一片遗憾和不舍。

　　同样在国内，创业者们不是不知道Agent是未来的创业方向，而是心有余力不足。一位Agent创业者告诉光锥智能，“数据清洗、长文本记忆、代码编写、运行测试、部署落地、成本等等九九八十一难，关关难过，关关卡死每一个创业公司”。

　　据光锥智能了解，无论国内外，Agent离落地还差得很远，目前比较确定的场景可能是Code Agent。原因在于，编码本身就属于大模型训练推理和Agent执行任务的一环，距离最近，改造也越容易。

　　持久且无限长的线程，允许开发人员将线程状态管理移交给OpenAI并解决上下文窗口约束;支持检索功能，利用模型之外的知识来增强，例如专有领域数据、产品信息或用户提供的文档;支持代码解释器功能，与ChatGPT Plus中一样，可以在沙盒执行环境中编写和运行Python代码，生成图形和图表，并处理具有多种数据和格式的文件;函数调用功能也迎来更新，现在可以一次性调用多个函数，并把响应合并到消息输出中。

　　总而言之，这些新功能精准切中了开发者们卡脖子的痛点，在OpenAI打造的全流程工具链上开发运行，将降低研发的门槛，缩短研发、测试周期，同时节省人力成本。

　　“我们对OpenAI又爱又恨，一方面它升级的工具有可能一瞬间让我们的业务跑通，但另一方面，我们也得时刻警惕被OpenAI取而代之”，一位Agent创业者道。

　　让我们聚焦这次发布会的主角——“Agent”。奥特曼给Agent下的定义为，人们利用工具、AI来建立更个人化和定制化的分身，这些分身可以代表个人做很多事情。用户只需询问计算机所想要的东西，Agent分身就能替你完成所有任务。

　　光锥智能梳理OpenAI做Agent思路后发现，Agent不是凭空而来，一切都基于GPT的大模型，在大模型基础上先是长出了GPT的分身“GPTs”，而后才是“AI Agent”。

　　“在OpenAI，我们一直笃定渐进的、迭代的部署是解决安全问题的最佳方式，即人工智能的安全挑战。我们认为谨慎对待面向未来Agent尤为重要，这需要大量的技术工作以及关于社会的深思熟虑，所以我们正在迈出通往未来的一小步——GPTs”，奥特曼表示道。

　　OpenAI通向未来Agent之路已初现雏形，正如其所言，“这还只是通向AI Agents迈出的第一步”，未来也许是多模态、多智能体。

　　技术的迭代固然让人兴奋，工具的推出也让开发者们更加方便快捷，但更重要的是，OpenAI凭借一己之力，让大模型的商业化进一步落地。

　　早在今年5月，OpenAI开放插件系统后，首批上线个大模型相关的应用，包括猜词、翻译、查找股票数据等等工具，彼时便有人预测到，大模型的App Store来了，但后期应用逐渐增加，却并没有跑出“爆款级”应用。

　　有投资人认为:现在的GPT Store很像刚刚面世时的小程序，处于能力逐步补齐中，此次升级便是逐渐走向成熟的象征，下一个微信或者抖音，很有可能在此诞生。

　　此次发布会中，OpenAI重新梳理了应用商店的体系，小幅调整了页面布局，将ChatGPT变成了与第三方应用并列的应用层级，并将开发范围扩大到了一个全新的范畴，按照奥特曼的说法，每一个GPT像是为ChatGPT的一个特殊目的，而量身定制的版本。

　　但让人更为兴奋的是，参考苹果App Store，用户可在GPT Store中搜索下载GPT应用，商店也将推荐生产力、教育和好玩等类别的优质产品，OpenAI也明确了创建者可根据自有GPT的适用人数进行分成。这意味着，基于大模型的应用有了“容器”，开发者找到了买卖的“市场”。

　　举个简单的例子:大模型本身一块块地皮，工具箱是锤子钉子，不同的开发者将盖不同房子，GPT Store则是一个房地产市场，也就是说，盖出来房子不仅能自用，还能租出去和卖出去。

　　有了商业化的“交易场”，创业者们就有了正反馈，这使得创业不再只靠激情和梦想，而是拥有了现实收益的可能。

　　这或许也正是大模型创业者所言的“找落地”，上半年的AI创业离不开两个字“烧钱”，5000万的融资金额对大模型创业而言简直是“沧海一瓢”，投资人不敢出手，创业者们也讲不出新故事。

　　在现场，OpenAI的工作人员展示了OpenAI搭建的一款旅游GPT的用法:它不仅能列出巴黎旅游建议，还能在地图上将计划中提到的地点按类别标记起来，而这完全可以对用户收费或者进行会员制。

　　虽然，这并不代表每一个登陆了GPT Store的应用都能赚到钱，但至少有一个窗口可以获得第一批种子用户，从而反哺产品进步，形成增长飞轮。

　　参考移动互联网应用爆发的年代，每一个细分领域创业者都能挖掘出无数的需求形成应用，这或许也正是创业者们为之兴奋的原因。

　　“我们相信，AI会以一种前所未见的规模，予以个体和机构新的能力。这也将把整个人类提升到我们前所未见的规模”，奥特曼在结尾时提到。

　　显然，OpenAI想做的，还有更多。基础设施已经初步搭建完毕，剩下的，就是等时间和生态的其他角色，来开花结果。

　　11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

　　大模型的训练与运行成本极其高昂，OpenAI也尝试过降低成本，只可惜失败了。当ChatGPT引起全球轰动时，OpenAI的工程师开始研究一种新的人工智能模型，代号为Arrakis。尽管这场挫折并没有减缓OpenAI今年的业务发展，但随着LLM领域的竞争日益加剧，特别是谷歌、微软等科技巨头的加速研发，OpenAI也有可能在这条赛道上式微。

　　2023年，没有比大模型更热闹的行业。在通往AGI的道路上，大厂隔空过招、应用遍地开花，各种会议只要标上“AI”字样，就能座无虚席。2023年Q4到2024年Q1，国内大模型企业也要开始证明自己的商业化能力，至于谁是大模型时代的超级应用，一切还未揭晓。

　　【新智元导读】OpenAI开发者大会前夕，马斯克来截胡了!xAI首个产品Grok炸裂发布，两个月训出330亿参数大模型，以《银河系漫游指南》为蓝本有一股子马斯克式幽默。各家都是箭在弦上，磨刀霍霍。多模态功能目前Grok还没有配备视觉和听觉功能，xAI会致力于发展它的多模态功能，实现更广泛的应用。

　　10月12日，中国移动推出了九天·众擎基座大模型，并基于该基座大模型发布了多个行业大模型，包括九天企业通话大模型、九天川流出行大模型等。中国移动还宣布了“天穹”算网大脑全网试商用。

　　“没有构建于基础模型之上的、丰富的AI原生应用生态，大模型就一文不值。”10月17日百度世界2023上，李彦宏通过手把手现场教学AI原生应用的方式，激励外界更多企业、开发者加入大模型应用生态中来。跨过鸿沟的重任，落到了百度移动生态肩上。

　　零一万物发布全球最强的开源大模型Yi-34B，具备超强的语言理解和处理能力，支持处理40万汉字，在中文指标上表现卓越，标志着中国在大模型领域的重大突破。项目地址:马斯克旗下xAI首个大模型Grok炸场马斯克旗下xAI团队发布了首个AI大模型产品“Grok”，它是一款智能助手，能回答各种问题并实时获取最新信息。论文地址:

　　大模型犹如烽火，重新点燃了大厂旗下各个业务板块间的竞争热情。从阿里巴巴决策让全部产品融入通义千问大模型，到百度采用文心一言彻底重塑产品线，近期腾讯也披露其内部已有超过180个业务领域与混元大模型紧密结合——这标志着AI改造应用的全面普及。对于他们言，这是一个机会与挑战并存的时代胜者将获得未来数千亿的市场。

　　Vivo蓝心大模型是vivo自主研发的智能语言理解模型，具有70亿模型参数量，可以处理32K上下文长度。那么蓝心大模型有哪些AI能力呢，我们来看下蓝心大模型的功能介绍。这种能力可以在自然语言处理、医疗诊断、金融风控等多个领域进行广泛地应用。

　　在2023年的开发者大会上，vivo正式发布了自研的AI大模型「蓝心BlueLM」，这是一个高度融合了全平台自研操作系统「蓝河BlueOS」的产品。vivo通过这一举措将新的用户体验带到每个用户的手中，让用户能够便捷地完成各种他们想做的事情。如果您想查看更多AI产品介绍，可以关注Aibase产品库了解。

　　AI公司OpenCSG近日在上海宣布推出“传神”开放创新生态社区，以支持大语言模型应用的开发和落地。该社区允许用户通过编排、测试、托管和分享，快速构建和发布专属的大模型应用。OpenCSG创始人陈冉表示，开源生态对大模型发展至关重要，公司将和合作伙伴共同完善大模型开源社区，真正实现大模型在各行各业的落地。

　　Maid of speeches是一个由畅销书作家支持,使用AI技术帮助伴郎写出强大且完美的演讲致辞的生成器。我们的交互式工具能够即时聊天,获取细节、故事和记忆,并在几分钟内为您生成一个完全自定义和个性化的伴郎致辞。您可以进行无限次修改和重写。我们100%保证满意,如果您对演讲或工具不满意,我们将无条件退款。

　　QolaBot是一个由人工智能驱动的聊天机器人,它可以24小时全天候地处理客户查询,无缝接入多个渠道,包括Google商业信息、Facebook、Instagram、TikTok和网页聊天等。该产品具有即时响应客户查询、全天候提供客户支持服务、可定制化训练等功能和优势,可以显着提高企业的工作效率,节省人力成本,从而助力企业获得更高的ROI。

　　Yesil Health是一款AI健康助手，用户可以通过问答的方式获取基于证据的健康建议。由Yesil Science Technology支持，致力于通过个性化和数据驱动的洞察力提升个人健康。

　　GMB Crush 是一款基于人工智能的 Google My Business 优化工具，提供全面的 GMB 审核和优化解决方案，帮助您在 Google 上脱颖而出。通过 AI 助手，您可以轻松识别排名靠前的列表的优化细节，并自动生成内容提示，帮助您创建吸引人的帖子、常见问题解答和网站内容。此外，GMB Crush 还作为强大的本地 SEO 生成工具，帮助您吸引更多潜在客户。通过模拟不同位置的用户体验，您可以针对特定的受众定制您的业务资料。

　　ChatGPT SideBar是一款智能助手插件，您可以在任何网站上使用它。使用OpenAI ChatGPT实现写作、翻译、代码、网页访问等功能。它提供强大的侧边栏，可进行翻译、字典查询、语法检查和自定义提示。它还具有快速查询窗口、增强的搜索页面和许多其他功能，以提升阅读体验和优化写作。使用ChatGPT SideBar，您可以一键完成写作、翻译、代码处理、总结、改写、解释或回复任何文本，甚至包括专业代码和核心行业知识，无需登录到ChatGPT OpenAI账户。

　　Sefi AI是一个面向创作者的AI工作室，提供高级的AI创作功能，包括生成、探索潜在空间、高级提示功能等。其稳定版本为Diffusion 1.5，支持512x512分辨率，用户可以定制种子、规模、步骤等参数，满足不同创作者的需求。

　　MealGenie 是一款 AI 食谱生成器，帮助用户发现美味的食谱。它利用人工智能技术搜索和生成各种健康食谱，用户可以根据自己的口味和需求进行定制化搜索。MealGenie 提供随机食谱推荐和最新食谱浏览功能，让用户轻松找到满足自己口腹之欲的美食。

　　Piktochart AI 通过任何主题的数据生成定制信息图表。真正的品牌对齐，生动的视觉效果和快速创建，所有这些都是免费的。

　　Sqlephant是一款AI辅助SQL开发工具，具有快速生成模式推断、SQL请求修复、SQL注入修复、多语言SQL包装生成、CRUD生成、Web应用生成等功能。产品定位于提高SQL开发效率，保障代码安全。

　　Custom GPTS是ChatGPT的自定义版本，您可以为特定目的创建自己的GPT，无需编码。该产品易于使用，适合所有技能水平，可以用于娱乐等各种用途。Custom GPTS是免费的，可以通过访问ChatGPT网站来使用。

　　Dubbing AI是一款实时AI语音转换器，能将任何声音转换为高质量的克隆声音，支持超过1000个来自您最喜爱的动漫、游戏等角色。它具有低延迟、低资源占用，支持几乎所有平台，并提供了丰富的声音滤镜。Dubbing AI是游戏玩家和直播者的理想工具，能够提升游戏体验和内容质量。

　　Linux Helper是一款帮助系统管理员提高效率和技能的应用程序，能够理解您的语言并生成可执行的Linux命令。它还提供了一个易于使用的语音键盘，以快速输入（即将推出）。主要功能包括：1.理解您的语言并生成可执行的Linux命令；2.分析和定位复杂的Linux系统问题；3.便捷的语音键盘输入方法（即将推出）。Linux Helper分为免费版和专业版，专业版提供更多高级功能和服务。我们承诺严格保护您的隐私，不会存储您的内容。上传的数据仅用于生成命令。

　　socra是一款AI平台，帮助用户实现目标。它提供了个性化的指导和支持，帮助用户设定和实现目标，制定计划，保持动力和责任感，学习新技能，跟踪进展，解决问题和执行任务。socra提供了多种功能，如Journeys、AI Life GPS、任务管理系统、AI工具包等，用户可以根据自己的需求和目标自由定制。同时，socra还提供了免费和付费的会员服务，用户可以根据自己的需求选择。

　　Figma是一个在线协作设计工具,设计师可以在浏览器中设计UI,进行原型设计,方便团队成员实时协作。它具有层次结构、样式系统、可视化的设计规范等功能,使整个设计流程高效协同。用户可以在网页端使用Figma,无需下载安装,多人实时协作非常方便。Figma还提供了组件库功能,有助于设计系统化和提高设计效率。

　　OpenAI TTS提供文本到语音的API，基于他们的TTS模型。它带有6种内置语音，可用于朗读博客文章、在多种语言中生成口语音频以及使用流式传输实时音频输出。用户可以通过控制模型名称、文本和语音选择来生成音频文件，并且支持多种音频输出格式。

　　GOPilotX 是一款智能助手应用，提供多种功能帮助用户提高工作和生活效率。它拥有强大的语音识别和自然语言处理能力，能够执行任务、回答问题、提供信息等。GOPilotX 还具有智能日程管理、语音备忘录、实时翻译等功能，帮助用户轻松应对各种日常任务。无论是工作助手还是生活伴侣，GOPilotX 都能满足用户的需求。

　　IndieHackers RPG是一个结合了经典RPG魅力与AI驱动对话创新的个人周末项目。它既是对我过去所玩RPG的致敬,也玩笑似的点评了独立黑客社区。

　　Brave Leo AI 是Brave浏览器推出的智能AI助手,直接集成在浏览器内,用户可以与Leo对话获取信息,无需离开当前页面。Leo可以为用户智能总结网页内容、翻译页面、回答问题等,快速帮助用户获取所需信息。同时,Leo非常注重隐私保护,不会记录和分享用户聊天内容。免登录和免账户即可使用,让您的聊天更加私密和安全。

　　AnyMoji利用最新的人工智能技术，让你可以轻松创造高质量、自然逼真的表情符号。无需订阅或应用内购买，只需一次付费即可无限制地创造表情符号。适用于iPhone和Mac，支持iMessage应用。

　　多力多滋的嘎吱声取消软件可以消除多力多滋的嘎吱声。您可以吃多力多滋，而不会分散您的游戏团队或语音聊天聚会的注意力。它由经过 5,000 多次多力多滋脆饼训练的人工智能提供支持，因此任何脆饼都会被检测到。

【责任编辑：管理员】

上一篇：知名电商花加突然宣布：停业下一篇：金杨股份：计划到2024年下半年46系列大圆柱精密结构件产能达到30万套天

随机推荐更多>>