由于下一代升级谷歌的GeminiAI现在可以处理更大的提示

发布时间：2024-05-16 10:28:18 来源：

标签：

导读在撰写本文时，谷歌的GeminiAI才问世两个月，但该公司已经推出了名为Gemini1 5的下一代模型。公告帖子详细解释了人工智能的所有改进。这一

在撰写本文时，谷歌的GeminiAI才问世两个月，但该公司已经推出了名为Gemini1.5的下一代模型。公告帖子详细解释了人工智能的所有改进。这一切都相当技术性，但主要的收获是Gemini1.5将提供“显着增强的性能”。这是通过实施“专家混合架构”(简称MoE)来实现的，该架构让多个AI模型协同工作一致地实施这种结构使双子座更容易训练，并且比以前更快地学习复杂的任务。

计划对所有三个主要版本的AI进行升级，但今天发布的唯一进行早期测试的是Gemini1.5Pro。

它的独特之处在于该模型具有“最多100万个令牌的上下文窗口”。与生成人工智能相关的令牌是LLM(大型语言模型)用来“处理和生成文本”的最小数据片段。更大的上下文窗口允许人工智能一次处理更多信息。而一百万个代币是巨大的，远远超出了GPT-4Turbo的能力。为了进行比较，OpenAI的引擎的上下文窗口上限为128,000个代币。

有了这些数据，问题是Gemini1.5Pro实际运行时是什么样子?谷歌制作了几个视频来展示人工智能的能力。不可否认，这是非常有趣的东西，因为它们揭示了升级后的模型如何根据提示分析和总结大量文本。

例如，他们向Gemini1.5Pro提供了阿波罗11号登月任务的400多页记录。它表明人工智能可以“理解、推理和识别”文件中的某些细节。提示器要求人工智能找出任务期间的“喜剧时刻”。30秒后，Gemini1.5Pro成功找到了宇航员在太空中讲的几个笑话，包括谁讲的并解释了所引用的内容。

这些分析技能可用于其他模式。在另一个演示中，开发团队给人工智能播放了一部44分钟的巴斯特·基顿电影。他们上传了喷水塔的草图，然后询问涉及水塔的场景的时间戳。果然，它在影片开始十分钟后就找到了准确的部分。请记住，这是在没有对绘图本身或除问题之外的任何其他文本进行任何解释的情况下完成的。Gemini1.5Pro无需额外帮助即可理解这是一座水塔。

该模型目前尚未向公众开放。目前，它正在通过Google的AIStudio和VertexAI平台免费向“开发人员和企业客户”提供早期预览版。该公司警告测试人员，由于它仍处于实验阶段，他们可能会遇到较长的延迟时间。然而，有计划提高线路速度。

我们联系了Google，询问人们何时可以期待Gemini1.5和Gemini1.5Ultra以及这些下一代AI模型的更广泛发布的信息。这个故事稍后会更新。在那之前，请查看TechRadar对2024年最佳人工智能内容生成器的综述。