文章来源:AI先锋官
今天的 2024百度世界大会上,百度创始人李彦宏介绍了一项很顶的技术——“iRAG(image based RAG)”。
他说,过去两年里, AI行业发生最大变化就是大模型基本消除了幻觉。
AI 的幻觉大家都有体验。
尤其在大模型初期,无论ChatGPT还是其他模型,总喜欢一本正经的胡说八道——直到RAG(检索增强)的技术的出现。
此次百度发布的技术叫“iRAG(image based RAG)”。字面意思我们不难看出, 是为了解决文生图技术的幻觉问题。
关于这个问题,大家看两组用Midjourney生成的实例就知道是咋回事了。
比如让“马斯克在北京大学门口喝豆汁”
嗯???这是豆汁吗?这是北京大学的门口吗?马上打开查了查,北京大学的门口应该长这样式的。
再生成一张“库克拿着小米15手机”的照片。
ennnnnnn。。。。。这是哪位友商的超大版的手机在乱贴苹果标。
就如大家所看到的那样,AI生图有着很大幻觉问题,往往是张冠李戴,图不对文。即使强大如 Midjourney ,也不能幸免。
李彦宏说,依托iRAG可让AI大模型文生图功能准确性大增,不再有“幻觉”,也就是说,AI制作的图片不会再有“AI味儿”了。
真的有介绍的那么厉害,消除了幻觉吗?
我们忍不住实测了一下文心的绘图功能。
比如,我们一起用 AI 来完成下马斯克的梦想,让“马斯克在火星上开着特斯拉”。
生成的效果还不错,是一辆特斯拉,不过里面的司机细看,可不是马斯克。
随后,我们接着换一个简单的。“特朗普站在火星上吃着麦当劳”。
这个生成的就比较不错,无论是特朗普还是火星地貌火星地貌都较好呈现的出来了。
再来一个,刚刚结束的美国大选,特朗普成功的当上了总统,再就让“哈里斯给特朗普颁发皇冠”。
🤔,这不是哈里斯,而是特朗普的老婆梅拉尼娅,依旧存在着幻觉问题。
随后我们反反复复测试了很多搭配,发现幻觉问题依旧存在,并没有发布会介绍的那么神。
写在这里,不经思考,iRAG到底有用还是真的没用。
那就让搭载了iRAG的文心的绘画功能和没有搭载iRAG的Midjourney来一场PK。
先来一个人物图“勒布朗詹姆斯和斯蒂芬库里身穿勇士球衣,在场上打球”。
左:文心 右:Midjourney
从这两张图不难看出,文心除了生成的更加真实,连斯台普斯球场都生成出来了,不过它们俩生成的球衣号码都有问题。
再来一个全是物体的图片“广州塔、埃菲尔铁塔和上海明珠出现在月球上”。
左:文心 右:Midjourney
在景物还原度来看,两者都没有把所有的高塔生成出来,不过Midjourney生成出来的是月球表明没错了,而文心只是生成了一张月球的背景图。。。
最后来一个人物加景物图“霍金和爱因斯坦在故宫打麻将”。
左:文心 右:Midjourney
同样的问题,文心在多人物方面生成的极其不准确,这都出来了两个爱因斯坦。反观,隔壁的Midjourney要更加拉跨,里面的元素出了爱因斯坦有较好的还原外,麻将和故宫的元素愣是一个都没有看到。
总的来说,iRAG技术还是有用的,它能在一定程度上消除幻觉,不过体验下来,还是差了点意思,没有达到预期。
不过,如果把iRAG技术搭载到Midjourney会是什么样的结果呢?