史上最强AI：Google Gemini 3种免费使用方法！

2024-01-27 1341点热度 1人点赞 0条评论

Google Gemini

最近要说最火的AI，应该是谷歌的Gemini。那么今天我就教大家如何免费使用Gemini。请注意是完全免费使用。视频很长，想学习AI的一定要看完。干货在后面，点击进入视频

多模态大模型

首先介绍一下谷歌的Gemini。它是一个多模态大模型

多模态的意思就是它在训练的时候就是用文本、代码、音频、图像和视频作为源数据训练也出来的AI大模型。也就是Gemini一出来它拥有除了语言能力之外，还有听力和视觉的能力。

那么相比于其他的大模型，比如OpenAI的GPT和DALL·E 3，就是单独训练的语言模块和图片模块，拼接在一起来近似多模态AI模型。

这种拼接方式的不足之处，就在于面对多模态空间，比如同时输入文字、图片和视频，然后再让AI进行深层逻辑复杂推理，就没有真正的多模态效果好。所以Gemini在演示视频的时候，你就会惊讶的发现，它的能力在几乎每个领域都是最强的。因为Gemini是谷歌几乎耗尽了他们内部所有的计算资源训练出来的AI大模型。这个模型推出来就只能成功不能失败。

Gemini分类

Gemini分为三个量级：能力最强的Ultra，用于处理高度复杂的任务；第二个就是可以处理多任务的Pro ，以及适用于特定任务和端侧使用的Nano，比如说用在手机和平板上。应该三个级别分别针对不同的应用场景。

Gemini号称历史最强的大模型，并且在各项评分中超过了GPT-4V。当然也有人质疑Google的演示视频有造假嫌疑，所以今天我们就来教大家如何真正的使用Gemini。看看他到底有多强。

在Bard中使用Gemini

第一种使用方法，就是直接在Bard中使用英文，默认的AI模型就是Gemini Pro

这里我测试了一道方程组的题，结果是对的。要知道，很早之前，我做过这样的测试，GPT4和联网的Newbing都没做对，这次Gemini终于做对了。这里一定要注意，如果你使用中文问，就还是那个傻笨笨Bard。

那么要使用中文的Gemini就是下面两种方法了

Google AI Studio中使用Gemini

首先我们去到这个Gemini的官网,然后点击右下角的这个Build with Gemini。然后点击跳出来的链接，把三个相关协议点上勾，点击继续，登录账号。接下来我们在左上角就可以免费获得一个API Key。下面演示直接在这个网页上使用Gemini，在右下角点击一个新的Freeform Prompt，然后接下来我们就可以使用Gemini了。

Gemini图片识别

下面是我对Gemini图片识别的一个测试，会发现对于手写英文，Gemini的效果非常的好。

但是，经过测试发现不能识别中文输写。后面我还进行了，图片人物识别，它能识别出巴菲特和芒格。还测试了识别图像的人数，以及让他区别分男女的等。效果都非常好的，这个我也看不出来是男的还是女的。

最重要的是测试了这个图，有多少个三角形。Gemini回答有24，再对比一下GPT4的回答，你会发现GPT4表现很差，竟然用Python到计算。结果就是没结果。

虽然Gemini也有翻车的时候，但是我已经很满意了。

Google Cloud中使用Gemini

接下来讲第三种使用Gemini的方法。就是在左下角点击这个Build with Vertex，然后我们就会进入到这个Google cloud。
我们在这里面就可以看到这个多模态模型，以及语言、视觉和语音多模态模型。这里我们直接可以看能输入image（png jpg），还能够输入video，包括MKV MP4这种。但是它有个最大的问题，就是文件只有10兆，最大只能输入10兆，这是一个很大的问题。