Bing抢先ChatGPT发布的识图功能
文/陈根
微软悄悄上新了。日前,有网友发现自己的Bing Chat账号新增了一个上传图片的入口。根据用户上传的图片,Bing Chat就能识图回答问题。
早在3月份,OpenAI在发布GPT-4时,特别提出了GPT-4较GPT-3.5最大的亮点是图像输入功能,即GPT-4支持图片输入,可以看懂梗图、看懂物理题,还能看懂论文。不过当时,该多模态功能尚处于研究预览阶段,还不能公开。
如今,微软似乎要抢先ChatGPT一步发布识图功能。在上个月Bing的大更新日志中,微软就提到了会为使用GPT-4模型的Bing Chat加入多模态支持。
那么,“长了眼睛”的Bing Chat到底是怎么样的呢?
首先,针对看梗图功能,Bing Chat根据网友上传的一幅关于机器学习的梗图漫画,或者一张在汽车上烫衣服的梗图,就能准确地答出图中的内容和笑点,基本上可以说是Get到了点位。其次,在识图精确度的评测方面,网友上传了《任天堂大乱斗》游戏的角色图,同一张图上有排列着非常多的角色,Bing Chat对其进行了一一辨认后,从12个角色中认出了7个。结果而论,Bing Chat在二次元问题上还有待进一步提升。再者,在根据手绘图编程网页方面,Bing Chat对于网友给出的手画“试题”,基本能够搭出网页的雏形。
在大语言模型升级的过程中,在文字理解和表达能力的基础上,学习了视觉识别后的Bing Chat将具有更多的功能,给人类的使用带来更大的方便。而曾经一些难以用语言表达的内容,现在都可以通过图片进行解决。甚至,具备了图像识别功能的AI还可以在教育、医疗等领域发挥更大的作用和价值。比如,在教育领域,Bing Chat 将可以担任一个初高中乃至大学老师的角色,帮助学生解答复杂的数理化问题。这将在很大程度上解决教育资源不均衡的问题。在医疗领域,用户还可以用它做基础的医疗诊断,节约就医所需要的金钱和时间。AI应用在社会生活中的价值将由此得到最大化的实现。
由Bing Chat带来的前景功能,无疑令人兴奋的。但是,从目前的小范围测试功能到完全向公众开放识图功能,确保公众不会因为误信Bing Chat的回答而出现安全问题,微软还需要做大量的限制和调试,可谓任重道远。
原文标题 : 陈根:Bing抢先ChatGPT发布的识图功能
最新活动更多
-
11月22日立即报名>> 【线下论坛】华邦电子与莱迪思联合技术论坛
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
7.30-8.1马上报名>>> 【展会】全数会 2025先进激光及工业光电展
-
精彩回顾立即查看>> 【线下论坛】华邦电子与恩智浦联合技术论坛
-
精彩回顾立即查看>> 【线下巡回】2024 STM32 全球巡回研讨会
-
精彩回顾立即查看>> 2024先进激光技术博览展
-
10 携程集团,彻底爆了!
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论