文章来源:AI先锋官

图片来源:由无界AI生成

图片来源:由无界AI生成

今天的 2024百度世界大会上,百度创始人李彦宏介绍了一项很顶的技术——“iRAG(image based RAG)”。

他说,过去两年里, AI行业发生最大变化就是大模型基本消除了幻觉。

AI 的幻觉大家都有体验。

尤其在大模型初期,无论ChatGPT还是其他模型,总喜欢一本正经的胡说八道——直到RAG(检索增强)的技术的出现。

此次百度发布的技术叫“iRAG(image based RAG)”。字面意思我们不难看出, 是为了解决文生图技术的幻觉问题。

关于这个问题,大家看两组用Midjourney生成的实例就知道是咋回事了。

比如让“马斯克在北京大学门口喝豆汁”

嗯???这是豆汁吗?这是北京大学的门口吗?马上打开查了查,北京大学的门口应该长这样式的。

再生成一张“库克拿着小米15手机”的照片。

ennnnnnn。。。。。这是哪位友商的超大版的手机在乱贴苹果标。

就如大家所看到的那样,AI生图有着很大幻觉问题,往往是张冠李戴,图不对文。即使强大如 Midjourney ,也不能幸免。

李彦宏说,依托iRAG可让AI大模型文生图功能准确性大增,不再有“幻觉”,也就是说,AI制作的图片不会再有“AI味儿”了。

真的有介绍的那么厉害,消除了幻觉吗?

我们忍不住实测了一下文心的绘图功能。

比如,我们一起用 AI 来完成下马斯克的梦想,让“马斯克在火星上开着特斯拉”。

生成的效果还不错,是一辆特斯拉,不过里面的司机细看,可不是马斯克。

随后,我们接着换一个简单的。“特朗普站在火星上吃着麦当劳”。

这个生成的就比较不错,无论是特朗普还是火星地貌火星地貌都较好呈现的出来了。

再来一个,刚刚结束的美国大选,特朗普成功的当上了总统,再就让“哈里斯给特朗普颁发皇冠”。

🤔,这不是哈里斯,而是特朗普的老婆梅拉尼娅,依旧存在着幻觉问题。

随后我们反反复复测试了很多搭配,发现幻觉问题依旧存在,并没有发布会介绍的那么神。

写在这里,不经思考,iRAG到底有用还是真的没用。

那就让搭载了iRAG的文心的绘画功能和没有搭载iRAG的Midjourney来一场PK。

先来一个人物图“勒布朗詹姆斯和斯蒂芬库里身穿勇士球衣,在场上打球”。

左:文心  右:Midjourney

从这两张图不难看出,文心除了生成的更加真实,连斯台普斯球场都生成出来了,不过它们俩生成的球衣号码都有问题。

再来一个全是物体的图片“广州塔、埃菲尔铁塔和上海明珠出现在月球上”。

左:文心  右:Midjourney

在景物还原度来看,两者都没有把所有的高塔生成出来,不过Midjourney生成出来的是月球表明没错了,而文心只是生成了一张月球的背景图。。。

最后来一个人物加景物图“霍金和爱因斯坦在故宫打麻将”。

左:文心  右:Midjourney

同样的问题,文心在多人物方面生成的极其不准确,这都出来了两个爱因斯坦。反观,隔壁的Midjourney要更加拉跨,里面的元素出了爱因斯坦有较好的还原外,麻将和故宫的元素愣是一个都没有看到。

总的来说,iRAG技术还是有用的,它能在一定程度上消除幻觉,不过体验下来,还是差了点意思,没有达到预期。

不过,如果把iRAG技术搭载到Midjourney会是什么样的结果呢?

Source

Visited 1 times, 1 visit(s) today
Subscribe
Notify of
guest
0 Comments
Most Voted
Newest Oldest
Inline Feedbacks
View all comments
0
Would love your thoughts, please comment.x
()
x