当AI学会创作，是否应该感到担忧？

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

当AI学会创作是否应该感到担忧

0. 前言

近来随着 Open AI 发布的新一代 AI 聊天机器人 ChatGPT 火遍科技圈人工智能生成内容( Artificial Intelligence Generated Content, AIGC )这一领域开始受到学术界、工业界甚至普通用户的更广泛关注。AIGC 凭借其独特的“创造力”与人类无法企及的创作生成速度掀起了一股人工智能狂潮甚至在新闻报道中已经出现了 AI 作品参赛获奖、AI 画作被拍出上百万的高价与此同时诸如昆仑万维等国内外公司开始争相布局 AIGC推动 AI 作画、AI 作曲等产品广泛应用于艺术、教育以及文化等内容创作领域成为独角兽公司。当人类引以为傲的“创造力”开始被 AI 所染指在感到振奋的同时我们是否会产生人工智能将取代人类的担忧
为了回答这一问题我们首先需要了解人工智能、了解 AIGC 及其最新研究进展。因此本文中我们将介绍何为人工智能与 AIGC并讲解目前业界领先的昆仑万维 AIGC 模型与产品最后进一步回答我们是否应该为人工智能表现出的“创造力”感到担忧。

1. 人工智能与 AIGC

1.1 人工智能简介

人工智能 (Artificial Intelligence, AI) 是研究用于模拟和扩展人类智能的理论、方法及应用的一门系统性科学技术其令计算机根据可用数据执行相应策略而无需以明确的编程方式执行策略AI 通过使用计算机程序模拟人类行为从而使机器实现智能。在过去几十年间由于可用数据的数量和质量呈指数级增长同时高性能的计算设备也得到了快速发展人工智能在图像识别、自然语言处理、推荐系统和自动驾驶等领域都取得了突破性进展。人工智能的目标是构建强大的智能模型可以操纵输入数据以预测输出同时随着新数据的增加不断更新模型。
人工智能的目标是创造能与人类思维相似的智能机器或者通过人工智能技术来扩展人类智能从而解决实际问题。在过去几年里许多人工智能系统取得了突破性进展已经可以应用于解决各种复杂问题。深度神经网络模型已经可以以近乎医生的水平对人体 X 射线图像进行病理学分析在围棋等经典棋盘游戏以及多人竞技电脑游戏中击败人类大师级选手但实际上人工智能的应用远不止这些。

1.2 人工智能与 AIGC

目前我们可以将人工智能模型分为两大类判别模型与生成模型。AI 判别模型需要一组输入数据例如英文文本、X 射线图像或者游戏画面经过一系列计算得到相应目标输出结果例如单词翻译结果、X 光图像的诊断结果或游戏中下一时刻要执行的动作。判别模型可能是我们最熟悉的一类 AI 模型其目的是在一组输入变量和目标输出之间创建映射。目标输出可以是一组离散(例如预测接下来出现的单词向量)或者连续的值(例如预测客户接下来一定时间段内在商店的花销)。
而生成模型并不会不会对输入变量计算分数或标签而是生成新数据这类模型可以接受与实际值无关的向量(甚至是随机向量)生成复杂输出例如文本、音乐或图像。人工智能生成内容( Artificial Intelligence Generated Content, AIGC) 泛指应用 AI 技术生成的内容包括文字、图片甚至是代码和视频等。
AIGC

1.3 步入 AIGC 时代

AIGC 是继专业生成内容 (Professionally Generated Content, PGC) 和用户生成内容 (User Generated Content, UGC) 之后的新一代内容生成方式是一种通过人工智能技术来自动或辅助生成内容的内容生成方式具有高效性和自动化的特点。自然语言生成技术 (Natural Language Generation, NLG) 和 AI 模型的快速发展推动了 AIGC 走向落地应用。

时代	内容生成方式	特点
Web 1.0	PGC	专业性强、质量较高
Web 2.0	UGC	内容丰富、创作自由
Web 3.0	AIGC	高效性、自动化

AIGC 在当前时间节点能够爆火并不是一种偶然而是技术发展和内容生产需求变革的必然结果。当元宇宙的相关概念提出后元宇宙发展过程中也浮现出了一个重要问题即如何生成元宇宙中大量的数字内容?而随着 AIGC 的快速发展以及资本市场的加入 AIGC 赛道AIGC 将能够极大的助力元宇宙的发展和落地AI 将能够生成或辅助生成元宇宙中海量的内容。

AI 绘图

深度学习生成模型在过去的十几年间取得了日新月异的进展几乎每天都有大量的相关论文发表2014 年对抗生成网络 (Generative Adversarial Networks, GAN) 及其变体的出现第一次引发了关于人工智能创作能力的讨论2021 年CLIP 模型被提出同年 OpenAI 推出了 DALL-E 模型其具备了文本与图像交互生成内容的能力2022 年深度学习模型 Diffusion 出现直接推动了 AIGC 技术的突破性发展其解决了生成对抗网络训练困难、生成结果较为粗糙的弊端许多基于 Diffusion 模型的应用呈现出井喷之势因此许多人将 2022 年称为 AIGC 元年。
在 AIGC 这条赛道上目前位于头部的 OpenAI 已估值超 200 亿美元而据《中国 AI 数字商业展望 2021-2025》报告预测中国 AI 数字商业核心支柱产业链规模将在 2025 年达到 1853 亿元其中 AI 数字商业内容产业规模将达到 495 亿元占整个产业链的近 27%。
作为中国领先的互联网平台出海企业昆仑万维一直以来都对市场和创新业务有着敏锐的洞察力更是早早的布局了 AIGC 业务在 AIGC 绘图、文本、编程和音乐等领域都处于业界领先水平逐渐在全球范围内形成了海外信息分发及元宇宙平台 Opera、海外社交娱乐平台 StarX、全球移动游戏平台 Ark Games、休闲娱乐平台闲徕互娱等板块为全球互联网用户提供了丰富的社交、娱乐等信息化服务与合作伙伴奇点智源合作推出了“昆仑天工”全系列 AIGC 模型与算法“昆仑天工”的 AI 生成能力涵盖图像、音乐、编程、文本等全模态领域。

2. 文本生成模型

文字是最基本也是最重要的内容形式在 AI 生成文字方面目前AI模型已经可以完成许多之前被认为是人类特权的创作活动例如作诗、写广告、剧本、小说甚至心灵鸡汤。目前OpenAI 的 GPT-3 模型是 AI 生成文字中最流形和最成熟的模型甚至有机构进行实验让 GPT-3 与本科生同时根据指定提示进行写作并交由教授组进行打分结果 GTP-3 模型生成的文章通过了大部分课程的写作测试而且仅仅需要 3-20 分钟并且其中大部分时间用于对文本的输出长度和重复文本进行编辑。

GPT-3模型架构最近已经有许多基于 GPT-3 模型的商业化产品其中佼佼者包括昆仑万维与奇点智源联合推出的瑶光和天枢模型这两种模型均可以理解和生成自然语言前者的性能相对更强适用于需要生成大量内容的应用而后者适用于对实时性要求更高的场景。
瑶光模型相较而言只需要较少的上下文就可以完成任务同时能够解决一些涉及因果关系的最具挑战性的人工智能问题其生成的长文本内在逻辑性更强在包括分类、问答以及聊天等任务中均有出色的表现。而天枢虽然在复杂文本生成任务中表现略逊色与瑶光但其在小样本任务中同样表现出色并且速度更快。
昆仑天工模型针对中文领域构建了千亿级别的高质量数据集通过高性能 a100-GPU 集群训练得到了百亿参数量的 GTP-3 生成模型其几乎可以应用与任何涉及理解或生成自然语言或代码的任务同时提供了一系列具有不同参数级别的模型根据同任务进行适配同时也可以微调模型的得到适合需求的生成模型。下表在多个数据集中对比了当前流行的中文文本生成领域的模型可以看到瑶光在多个文本生成任务中有明显优势。

在这里插入图片描述

同时昆仑天工的 AI 文本生成模型可以应用于多种下游任务例如续写、对话、中英翻译、内容风格生成、推理、诗词对联等几乎涵盖了文本内容生成的大部分应用场景。

以内容续写为例文本生成模型提供了一个非常简单的文本输入、文本输出界面在保证灵活性的同时提供了强大的内容生成能力。我们只需要输入一些文本作为提示模型将自动生成一个文本续写用于尝试匹配我们提供的输入上下文或模式除此之外我们还可以从生成的文本长度等方面对生成结果进行调整。
内容续写
在续写无言律诗的应用中昆仑天工 AI 模型甚至可以非常准确的给出标点。如下图所示当引导语句后应当紧接逗号时模型准确的生成了逗号并得到对仗工整的续写诗句。

写五言诗

感受了昆仑天工文本生成深度学习模型的强大之后我们当然会想迫不及待将其应用到项目实践中去昆仑天工提供了丰富的文本生成 API 用于不同的专业性下游任务支持 JSON、Python 和 shell 等多种编程语言并且提供了详尽的 API 功能描述与使用示例方便我们将其应用于项目中去。以生成五言诗为例使用 Python API 调用昆仑天工文本生成深度学习模型的代码非常简单方便

import requests
import json

url = "https://openapi-dev.singularity-ai.com/api/generateByKey"

headers = {
        "Content-Type": "application/json",
        "App-Key": "your apiKey" # 替换为自己的 API Key
    }

data = {
    "model_version": "模型版本",
    "prompt": "闻道巴山里春船正好行。都将百年兴一望九江城。\n水槛温江口茅堂石笋西。移船先主庙洗药浣沙溪。\n迟日江山丽春风花草香。泥融飞燕子沙暖睡鸳鸯。\n寒食少天气东风多柳花。小桃知客意春尽始开花。\n清风入堂来",
    "param": {
        "generate_length": 100,
        "top_p": 0.1,
        "top_k": 10,
        "repetition_penalty": 1.3,
        "length_penalty": 1,
        "min_len": 2,
        "temperature": 1,
        "end_words": [
            "[EOS]",
            "\n"
        ]
    }
}

response = requests.post(url=url, headers=headers, json=data)
dt  = json.loads(response.text)
print(dt)

3. 代码生成模型

代码生成一直以来都被认为是一项复杂的挑战这是由于代码生成具有很高的内在逻辑性不仅需要做到能够生成还要做到能够运行否则仅仅生成一堆无法运行的代码是完全本末倒置的代码生成的最重要的目的就是能够辅助人类程序员减少代码编写的任务量如果生成的代码没有任何意义反而会增加程序员的负担。
但是随着 AlphaCode 的问世让人类看到了代码编写或许不再是程序员的专属领域在 AlphaCode 参加 Codeforces 算法比赛的数十次结果中其能力超越了 50% 以上的程序员下图显示了 AlphaCode 的模型架构图。

AlphaCode架构
在 AI 代码生成的赛道中昆仑万维训练了全球第一款多语言开源编程大模型 Sky-code 代码生成工具其支持各种主流编程语言包括 java、javascript、c、c++、python、go 和 shell 等编程语言可以帮助开发人员更快更好的编码甚至模型每秒可以输出百字以上的代码量。Sky-code 具有优秀的代码续写能力不仅可以根据代码注释续写代码解决算法问题让深度学习模型刷题不再只是幻想同时它也支持根据中文注释续写代码这对于大部分外语能力较差的开发人员而言更是雪中送炭。并且 Sky-code 模型的代码质量非常高下表对比了 Sky-code 模型与其他代码生成模型的性能

模型	机构	参数量	函数级代码生成任务的数据集
			Human-Eval 164 (OpenAI 发布)				40 Simples (40 个贴近实际场景的 case奇点自制数据集)
			k=1	k=10	k=100	编辑距离 (ED)	k=1	k=10	k=1100	ED
GPT-J	EleutherAI	60亿	11.62%	15.74%	27.74%	35.83	27.00%(t0.2)	57.06%(t0.6)	80.00%(t0.6)	44.31
SKY-CODE	奇点智源(昆仑天工)	26亿	10.37%(t0.2)	18.52%(t0.6)	30.69%(t0.6)	37.32	35.45%(t0.2)	60.38(t0.6)	84.77%(t0.6)	51.1

模型的生成通过率是代码生成模型最重要的能力衡量指标根据数据集中的不同问题模型生成的代码需要通过单元测试才会被认为生成正确结果。在上表中根据运行次数的不同指标分为单次运行通过率 (k=1)、十次运行通过率 (k=10)百次运行通过率 (k=100)等可以看出在 40 Samples 数据集中 Sky-code 模型的百次模型通过率甚至接近 85%并且相较于其他模型具有更少的模型参数量这也就不难得出 Sky-code 模型运行效率较高的原因。
Sky-code 可以在编码的过程中对代码进行智能补全使用该模型我们只需要通过一段函数功能描述或者想要实现的程序结果Sky-code 就可以分析当前编辑代码文件的上下文环境给出代码补全或建议。

代码生成

以补全 Python 代码为例在上图中可以看出我们只提供了代码的注释部分Sky-code 模型就可以自动补全整个函数更加友好的是我们可以使用中文注释。补全后代码如下所示能够节约大量的时间令我们可以更加专注于算法的逻辑流程。

import Flask 

# 一个简单的基于 Flask框架的 webserver

class SimpleServer(object):  
    def __init__(self, ip, port, server_name):
        self.ip=ip;
        self.port=int(port);
        self.name=server_name
    def run(self):
        app = Flask(__name__)
        @app.route("/")
        def hello():
            return "Hello, %s!"%(self.name);
        print(app.url_for('index'))
if __name__=="__main__":
    srvr=SimpleServer(192.168.0.100,8081,'server1');
    srvr.run()

Sky-code 已经支持在 Visual Studio Code 上使用插件扩展后续也会陆续支持 Visual Studio、Neovim 和 JetBrains 等一系列常见 IDE 和编辑器。

Sky-code插件

4. 图像生成模型

在 AI 生成图片方面随着算法模型的不断迭代升级AI 作画无论是在质量还是速度上都有了飞跃性发展在 2014 年发布的 GAN 模型不仅生成图片质量较差且易陷入模式坍塌在 2022 年初提出的 Disco Diffusion 模型能够生成更加多样性的图片而随之发布的 DALL-E2 模型可以生成完整的图像内容而到 8 月由 StabilityAI 发布的 Stable Diffusion 模型更是取得质的突破甚至已经可以生成能够媲美专业画师的作品生成图片的效率也从数小时缩短到几分钟甚至数十秒 Stable Diffusion 模型主要采用的扩散模型 (Diffusion Model)简单理解扩散模型就是去噪自编码器的连续应用逐步生成高质量图像的过程下图显示了 Stable Diffusion 模型的架构图。

Stable Diffusion架构图
昆仑天工的 AI 图片生成模型天工巧绘 SkyPaint 基于 Stable Diffusion 模型在保留原始 Stable Diffusion 模型那个能够根据英文提示词输入实现文字生成图像的基础上实现中文提示词输入能力SkyPaint 使用 1.5 亿级的平行语料优化提示词模型实现中英文对照不仅涉及翻译任务语料还包括了用户使用频率高的提示词中英语料古诗词中英语料字幕语料百科语料图片文字描述语料等多场景多任务的海量语料集合对模型进行了深度优化以令中文输入提示语得到更高质量的图片。
在文本生成图像以及图片生成文本两种应用中昆仑天工的天工巧绘 SkyPaint 模型均与 AI 作画领域最先进模型相当下表对比了不同模型在 Flickr30K-CN 数据集上的性能表现。

数据集	模型	Text-to-Image			Image-to-Text			MR
		Zero-shot			Zero-shot
		R@1	R@5	R@10	R@1	R@5	R@10
Flickr30K-CN	Taiyi-CLIP-Roberta-large-326M-Chinese	53.84(53.7)	79.9(79.8)	86.56(86.6)	64.0(63.8)	90.4(90.5)	96.1(95.9)	78.47(78.39)
	Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese	55.3(58.32)	81.58(82.96)	88.5(89.40)	67.2	92.7	96.9	80.37
	Wukong ViT-L/14	51.86(51.7)	78.6(78.9)	85.88(86.3)	75(76.1)	94.4(94.8)	97.7(97.5)	80.57(80.89)
	R2D2 ViT-L/14	42.6(60.9)	69.46(86.8)	78.64(92.7)	63.0(77.6)	90.10(96.7)	96.40(98.9)	73.37(85.6)
	CN-CLIP ViT-L/14	68.08(68.0)	89.66(89.7)	94.46(94.4)	80.2(80.2)	96.6(96.6)	98.2(98.2)	87.87(87.85)
	AltCLIP-XLMR-L(AltCLIP)	50.66(69.8)	75.42(89.9)	83.14(94.7)	73.4(84.8)	92.8(97.4)	96.90(98.8)	78.72(89.24)
	prev_online(昆仑天工)	61.52	84.72	90.62	76.7	95.6	98.7	84.64
	hide77_gpt2(online)(昆仑天工)	58.82	82.62	89.58	78.8	96.1	98.3	84.04

模型训练时同时采用了模型蒸馏与双语对齐方案使用教师模型对学生模型蒸馏的同时辅以解码器语言对齐任务辅助模型训练以更加贴近中文语言习惯。更加可贵的是SkyPaint 已经发布了微信小程序预览版相信马上我们都可以在微信上体验到该模型的强大。
天工巧绘

非常有幸能够体验到天工巧绘 SkyPaint 体验版的强大性能可以看到即使我们只给出关键词也能够生成纹理清晰、质量上乘的图像并且同时支持中英文提示词输入如果我不告诉你这是 AI 创作的图像可能会有很多人认为这就是人类画家的作品。

生成结果

小结与展望

最后关于“当AI学会创作是否应该感到担忧”这一问题我们可以借助 ChatGPT 的回答进行总结。目前人工智能可以辅助人类完成许多复杂任务但它们仍然需要人类来监督和指导这些人工智能模型仍然依赖于算法和数据的训练因此人工智能和人类在很多方面是互补的而不是相互竞争的。但是AIGC 可能会存在一些潜在的隐患例如人工智能创作出的内容可能侵犯个人隐私或者产生其他不良影响。因此人类需要对人工智能进行适当的监督和管理以确保它不会对人类造成危害。总体而言随着诸如昆仑万维等公司的 AI 工程师不断深入研究AIGC 会不断纠偏完善不断朝着有利于人类的方向发展我们有理由期待未来各个行业都会配备高水平的 AIGC 助手。

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

返回列表

上一篇：手把手教你用UNet做医学图像分割系统

下一篇：AI遮天传 DL-深度学习在自然语言中的应用