杰夫·迪恩说,更多的进展即将到来。
有意思的是,今年AIGC的风头基本都被Stable Diffusion,Craiyon,Midjourney等小玩家抢走了——像Google这样的AI巨头也没怎么动静。
但实际上,谷歌并没有躺平。
临最近几年底,11月2日上午,谷歌终于有了大动作。这个在AI研究领域口碑最久的硅谷巨头,居然花大力气发布了四项最新的AIGC技术成果,可以根据文字提示生成:
高分辨率长视频
三维模型
音乐
密码
和可控文本生成技术。
AI赋能的生成模型有释放创造力的潜力通过这些技术,不同文化背景的人可以更方便地使用图像,视频和设计来表达自己,这在以前是不可能的,谷歌AI负责人杰夫·迪恩说
他表示,通过谷歌研究人员的不懈努力,现在该公司不仅在生成质量方面拥有业界领先的模型,而且还在这些模型的基础上做出了进一步的创新。
和AudioLM,一种音频模型,它可以在没有单词和音乐符号训练的情况下,仅通过听音频样本来继续生成填充音乐。
接下来,我们就好好看看谷歌这次都有哪些大动作。
AI写作助手,深受喜爱。
说实话,当我看到谷歌做了一个AI写作工具的时候,硅星人是有点担心失业的...
但是,在对这个工具有了更多的了解之后,这种心情就转化成了更多的欣慰。
我们一直在强调AI背后大语言模型的技术背景Google推出的LaMDA Wordcraft就是这样一种技术,将语言模型的核心功能最大化
Lamwordcraft是在LaMDA大语言模型基础上开发的写作辅助工具它是Google Brain团队,PAIR团队和Magenta音频生成项目团队的合作结晶
LaMDA本身的设计功能很简单:给定一个单词,预测下一个最有可能的单词是什么,也可以理解为完形填空或者句子补全。
你可以用Wordcraft改写句子,也可以让他把你的原文调整得更有趣或者更忧郁。
值得注意的是,著名科幻作家刘宇昆也参与了这个项目。
在写作的过程中,他遇到了一个场景,需要描述店里摆放的各种商品——在以前,这样的写作细节很容易打乱他的写作思路,但刘宇昆可以在Wordcraft的帮助下直接生成一个列表,节省了他的脑容量,集中精力写对故事更重要的东西。
在另一个场景中,他发现自己的想象力有限,不断重复熟悉的概念于是他把主动权交给了LaMDA,让它开始这将迫使我去探索一些我从未想过的可能性,寻找新的写作灵感
你可以在Wordcraft作家工作室的官方页面上找到刘宇昆在Wordcraft的帮助下写的短篇小说评价独白。顺便说一下,他还借用了Imagen为小说生成了几幅插图:
虽然今年AIGC的热闹被稳定扩散的炒鸡抢走了,但低调稳健的谷歌并没有躺平。
生成高分辨率和时间连贯的视频是一项非常困难的工作,谷歌研究的高级研究主任道格拉斯·埃克说。
幸运的是,我们最近有两项研究,Imagen Video和Phenaki,可以解决视频生成的问题。
具体来说,Imagen Video是一种通过文本生成图像的扩散模型,可以生成前所未有保真度的高清图像,同时,由于它是建立在基于Transformer技术的大规模语言模型上,所以也具有很强的语言理解能力。
而Phenaki则完全通过大语言模型生成视频,并在时间序列上不断生成token它的优点是可以生成极长的视频,画面的逻辑和视觉连贯性更强
说实话,这个项目不是我做的,但我觉得真的很神奇Eck表示,这项技术最强大的地方在于,它可以使用一系列多个文本提示来生成超高清视频,这带来了一种全新的讲故事能力
早些年,OpenAI发表GPT第一代模型的论文标题很经典:语言模型是少射学习器,指出大语言模型可以在极少量样本的基础上,在多种自然语言处理任务中展现出强大的能力——同时,这个标题预言了未来更大的语言模型能够做更多更强大的事情。
今天,谷歌展示的AudioLM纯音频模型证实了这一预测。
AudioLM是一个具有长期一致性的高质量音频生成框架它不需要任何单词或乐谱,只需要在非常短的音频样本的基础上,就能生成自然,连贯,真实的音频结果,而且不限于语音或音乐
AudioLM生成的句子在句法和语义上仍然保持着较高的可信度和连贯性,甚至可以延续样本中说话人的语气。
更何况这个模型一开始并没有用任何音乐数据进行训练,但结果却很惊人:它能从任何乐器或音乐录音中自动续写的事实,再次显示了大语言模型的真正实力。
以下音频是一段20秒左右的钢琴曲。先听听,感受一下:
其实只有前四秒是对模型的提示,后面的都是AudioLM自己完成的而且只有这个4秒钟的音频样本,没有辅以钢琴进行曲等专业的文字提示
你不需要提供给它一整段音乐来学习,只需要给它一小段,他就可以直接在音乐的空间开始写作——任何音频片段都可以,不管是音乐还是语音Eck表示,这种不可参考的音频生成能力早已超出了人们对AI创作能力的认知边界
其他AIGC技术和产品
除了上述新技术,谷歌还宣布了其他内容格式上的AI内容生成技术。
此外,谷歌在今年的I/O大会上为公众推出的早期应用程序AI Test Kitchen也将在不久的将来更新,以添加LaMDA model innovation解锁的新功能比如《城市梦想家》用文字命令建造主城区,或者《Wobble》创造出可以扭曲的卡通人物
用户可以在相应系统的应用商城下载AI测试厨房,并前往Google网站申请测试资格实际测试和审批速度相当快
我们在神经网络架构,机器学习算法和应用于机器学习的新硬件方法方面的进展,帮助AI为数十亿人解决了重要的实际问题,杰夫·迪恩说。
更多的进展即将到来我们今天分享的是对未来充满希望的愿景:人工智能正在让我们重新想象技术可以如何提供帮助