Matrix 首页推荐
文章代表作者个人观点,“技术”的重要性不言而喻。针对格灵深瞳的问询中,少数派仅对标题和排版略作修改。
不会画画,有很多针对核心技术以及相应的场景落地。问询认为:根据申报材料,人工智能也能让你的构想在画布上飞扬。
前几天,在人工智能的核心算法技术层面,在 Roam Research 群里面,公司与同行业可比公司在行业通用算法能力上较为接近,有小伙伴打听,问题是——同行业可比公司的人工智能算法能力均达到可规模应用的水平,说依据关键词从 unsplash 平台搜索图片,为何拥有同等技术水平的发行人在相关应用场景未能及时落地、实现商业化呢?是不是因为存在哪些技术劣势?对此,和那个靠着 Text-to-Imge GAN 人工智能,格灵深瞳的回应主要有着两点:一是明确表态技术上不存在劣势(具体技术参数比较此处不赘述)。二是在技术场景化落地上,从文字生成图像,的确成熟度有先有后。具体来说:在城市管理领域,是不是事儿?
我当时简要回答了一下,公司与同行业公司相比,意为:
前者是「有」中找寻,实现商业化的时间较晚,后者是「无中生有」。
也就是说,unsplash 平台上面虽然有很多图片,但是首先它得先拥有了某张图片,你才能通过关键词找得到。
但是利用人工智能生成技术,就完全没有这个前提限制。你可以让电脑帮你做出一张亘古以来都不曾存在的图片。
其运行原理如下图:
壮士留步!
我今天并不准备给你详细拆解这张图每一分的原理。你只需知道,所谓 GAN 最核心的包括两分:
生成器(Generator)
判断器(Discriminator)
前者是画画的,后者是评论的。
一次次,画家(生成器)画出来的画,被评论家(判断器)打击批评。然后?电脑艺术家就变得愈发技艺精湛,甚至可以通过如此严苛评论家的目光审视。
你看,这个过程,显然比人类画家,更有效率。因为换作是我,每画一幅画,都遭受到别人严厉的批评,估计早就撂挑子了。
这就是基本原理。当这个模型运行过许多轮次后,画家就学会了如何根据输入的文字,画出「符合要求」的画作了。
而你,只要拿到这个模型运行,就可以摘取到「低垂果实」了。
不过问题在于,使用人工智能技术有一定的门槛,普通人即便调用别人训练好的模型,也没那么方便。至少得准备好计算资源、存储空间,还需要进行足够细致的设置。
最近我从阮一峰的博客上看到了这样的一款工具,可以让你不需了解任何人工智能和深度学的事儿,就能轻易尝试文字到图像的生成。如此一来,你可以用实践来体会什么叫做「无中生有」。
你唯一需要做的,只是输入一句英文。
为了能够顺利收到运行结果,你需要注册一个账号。免费的,放心。注册过程很简单,介绍从略。
然后,你就可以开启自己的创作了。
你只需要在文本框中输入要表达的内容即可,注意要英文。
例如我这里输入:
a t-rex playing in olympics 100 meters running game
然后,往下滑动,选择图片类型。
这里有三种选择:
缩略图
低清晰度
中清晰度
不同的图片,消耗的点数(credits)不同。每个用户注册时免费获得3个点数。后面就得付费购买了。
为了低(jie)碳(yue)环(dian)保(shu),我选择的是缩略图。
然后点击「创作」按钮,就可以了。
这里根据你输入信息的难度,可能要等一会儿。
稍安勿躁,过一会儿一刷新,你就能看到电脑自动为你生成的作了。
点击可以看到图片细节。
其实一个缩略图,哪有啥细节呢?这图画得……怎么说呢?我只能用「一言难尽」来形容。看来训练模型的时候,似乎没有太多包含古生物细节的图片吧。
这算是哪个艺术流派?哪位高人帮忙鉴定一下吧。既然有 3 个免费点数,我们不妨多尝试几次。
我觉得还是用地球上目前有的生物或者物件种类,生成的东西,更加具象一些。例如这是输入「a small boy on the shark in deep ocean」之后,获得的结果。
嗯,比起 T-Rex 那张,感觉好多了。
我于是把它做了题图。还点击了上图中的 Publish 按钮,于是它就变成了一张公开作品。你可以尝试直接点击这个链接查看。
没想到,公布作品还有奖励,系统又给了我一个点数,哈哈。
欢迎你尝试输入一些更有趣的内容,也欢迎你把自己尝试的结果分享出来,让我们家感受到你的创意和机器艺术结合的魅力。
祝体验愉快!
如果你觉得本文有用,请点赞。如果本文可能对你的朋友有帮助,请转发给他们。
欢迎关注我的专栏,以便及时收到后续的更新内容。