Google Gemini
最近要说最火的AI,应该是谷歌的Gemini。那么今天我就教大家如何免费使用Gemini。请注意是完全免费使用。视频很长,想学习AI的一定要看完。干货在后面,点击进入视频
多模态大模型
首先介绍一下谷歌的Gemini。它是一个多模态大模型

多模态的意思就是它在训练的时候就是用文本、代码、音频、图像和视频作为源数据训练也出来的AI大模型。也就是Gemini一出来它拥有除了语言能力之外,还有听力和视觉的能力。

那么相比于其他的大模型,比如OpenAI的GPT和DALL·E 3,就是单独训练的语言模块和图片模块,拼接在一起来近似多模态AI模型。

这种拼接方式的不足之处,就在于面对多模态空间,比如同时输入文字、图片和视频,然后再让AI进行深层逻辑复杂推理,就没有真正的多模态效果好。所以Gemini在演示视频的时候,你就会惊讶的发现,它的能力在几乎每个领域都是最强的。因为Gemini是谷歌几乎耗尽了他们内部所有的计算资源训练出来的AI大模型。这个模型推出来就只能成功不能失败。
Gemini分类
Gemini分为三个量级:能力最强的Ultra,用于处理高度复杂的任务;第二个就是可以处理多任务的Pro ,以及适用于特定任务和端侧使用的Nano,比如说用在手机和平板上。应该三个级别分别针对不同的应用场景。

Gemini号称历史最强的大模型,并且在各项评分中超过了GPT-4V。当然也有人质疑Google的演示视频有造假嫌疑,所以今天我们就来教大家如何真正的使用Gemini。看看他到底有多强。
在Bard中使用Gemini
第一种使用方法,就是直接在Bard中使用英文,默认的AI模型就是Gemini Pro

这里我测试了一道方程组的题,结果是对的。要知道,很早之前,我做过这样的测试,GPT4和联网的Newbing都没做对,这次Gemini终于做对了。这里一定要注意,如果你使用中文问,就还是那个傻笨笨Bard。

那么要使用中文的Gemini就是下面两种方法了
Google AI Studio中使用Gemini
首先我们去到这个Gemini的官网,然后点击右下角的这个Build with Gemini。然后点击跳出来的链接,把三个相关协议点上勾,点击继续,登录账号。接下来我们在左上角就可以免费获得一个API Key。下面演示直接在这个网页上使用Gemini,在右下角点击一个新的Freeform Prompt,然后接下来我们就可以使用Gemini了。

Gemini图片识别
下面是我对Gemini图片识别的一个测试,会发现对于手写英文,Gemini的效果非常的好。

但是,经过测试发现不能识别中文输写。后面我还进行了,图片人物识别,它能识别出巴菲特和芒格。还测试了识别图像的人数,以及让他区别分男女的等。效果都非常好的,这个我也看不出来是男的还是女的。

最重要的是测试了这个图,有多少个三角形。Gemini回答有24,再对比一下GPT4的回答,你会发现GPT4表现很差,竟然用Python到计算。结果就是没结果。

虽然Gemini也有翻车的时候,但是我已经很满意了。
Google Cloud中使用Gemini
接下来讲第三种使用Gemini的方法。就是在左下角点击这个Build with Vertex,然后我们就会进入到这个Google cloud。
我们在这里面就可以看到这个多模态模型,以及语言、视觉和语音多模态模型。这里我们直接可以看能输入image(png jpg),还能够输入video,包括MKV MP4这种。但是它有个最大的问题,就是文件只有10兆,最大只能输入10兆,这是一个很大的问题。

经过测试,就是效果和这个Google AI studio里面使用差不多。我重点给大家讲一下这个语音。这个语音就是它可以进行文字转语音和语音转文字。文字转语音它只能进行三种语言:英语的男女以及西班牙语的男。因为他不能够转中文,所以我就不给大家演示了。
文章评论