📁传图片识别、传文档分析、传代码解析功能如何使用?
下一篇
什么是模态(Modal)?模态是指信息的表现形式或感知方式,如文本、图像、声音、视频等。在语言学中,模态也可以指说话人对某种语言表达的态度或语气。但在多模态学习中,我们主要关注数据的表现形式。什么是多模态(MultiModal)?多模态是指利用来自多个不同模态的数据进行学习和推理的过程。这些模态可以是文本、图像、声音、视频等的组合。不同的模态提供了不同的信息渠道,它们之间可能存在冗余性,但更多的是互补性。多模态模型能够整合来自不同模态的信息,正是利用这些不同模态的信息来增强模型的感知与理解能力。
打开模型选择界面会,点击(筛选模型)选择对应类型的模型就可以直接使用了。
传图片分析:凡是带有📁或者👀标志的都是可以传图传文档的AI模型。
点击左下角上传按钮上传后,然后说出你想要他干的事,发送即可:
请确保你的文档体积在合适的范围内。建议体积在0~10MB之间。体积过大,内容过多,不确保AI能够有足够算力处理(现在的AI大模型能处理的上下文有限)。
注意,你上传的文档一定要是非图片格式的文档,有些AI大模型不支持识别纯图片的PDF,只支持可以复制的文字版PDF。请确保你的PDF里面需要AI读取的内容可以被复制,否则AI会无法识别!
支持图片上传:
1、仅支持上传png、jpg格式的图片
2、图片大小不能超过10MB
支持文档上传:
1、仅支持上传pdf、docx、pptx格式文档,不支持doc格式文档
2、PDF、DOCX文档必须为非图片格式可复制的文档,暂不支持OCR识别
3、文档大小不能超过10MB
支持代码上传:
1、目前仅支持html代码文件
我上传了一个纯图片的文档,所以AI无法提取。
现在来上传一个新的文档。
如果直接上传文件AI无法识别的话,可以试试让AI直接访问并浏览文件直链,而且一定要是可以直接下载的!我们找了很多家网站,比如文叔叔、奶牛快传、Easy传这类网站,自己用起来是方便,但是对于AI来说,是无法直接获取传输的文件的,所以都不能用。最后,我找到了一家非常好用的,而且是免费的文件传输网站,可以快速生成文件直链!
比如我就上传了一个PDF文件,生成的链接很长,但是没关系,我们直接复制,粘贴,然后空格!一定要空格!然后
再说明你的需求:
我的提示词如下:
https://fs-im-kefu.7moor-fs1.com/ly/4d2c3f00-7d4c-11e5-af15-41bf63ae4ea0/1711961228150/GPT-4_%E5%BE%AE%E8%BD%AF%E5%AE%98%E6%96%B9%E6%8A.pdf 分析一下这个文档,并按照你的方式将表格中的数据可视化。
现在,我来给你演示一下使用技巧:
然后是高难度的分析:(以 GPT-4_微软官方技术报告中文版.pdf 为例子,不仅要分析,还要生成图表!)
没想到,AI面对这么高难度的要求,居然毫无畏惧,不仅自己编了个程,还在线运行!关键是居然还真的生成了一张有模有样的图表!真的是太强大了!
问:上传图片时,AI可以可识图多次,上传文档时只能提取一次?
答:原因是我们设置了一个上下文的文档限制,防止AI大模型的上下文出现错误。
问:为什么上传图片或者文档后要无法切换大模型?
答:因为有的大模型不支持识图文档这些,也是防止在对话中出现AI大模型的回答错误。
所以我们需要进行(新对话)