讯飞星火升级 3.0:整体超越 ChatGPT,2024 年将实现对标 GPT-4-CSDN博客

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

距离上一个大版本仅两个月过去科大讯飞在 1024 对外正式推出讯飞星火认知大模型 3.0 版本。

今年 5 月讯飞星火认知大模型刚刚面世时科大讯飞董事长刘庆峰曾立下 Flag10 月 24 日星火认知大模型的能力要全面对标 ChatGPT。

图片

在今天的发布会上刘庆峰对外正式宣告星火 V3.0 已经实现全方位超越 ChatGPT在中文上实现全面超越在英文上实现对标。

图片

相较于上一个版本讯飞星火 3.0 版本在文本生成、语言理解知识问答、逻辑推理、数学能力、代码能力、多模态能力等七大核心能力上继续升级并且推出了个性化功能。

多项能力的提升推动了更多应用场景的落地落地价值开始彰显。在此次发布会上讯飞对外介绍了智能编程助手 iFlyCode2.0、星火科研助手、启发互动式英语 AI 答疑辅学、青少年 AI 心理咨询、AI 健康助手等一系列细分场景应用并对外发布了金融、汽车、运营商、工业、住建、物业、法律等十二个行业模型。

刘庆峰称通过与华为在算力上共同合作讯飞在半年内实现了星火大模型训练和推理效率翻番。讯飞联合华为共同发布 “飞星一号” 大模型算力平台并启动对标 GPT-4 的更大参数规模的星火大模型训练2024 年上半年将实现对标 GPT-4。

七大维度全面升级整体超越 ChatGPT

从大模型本身的技术升级来看这次讯飞星火 V3.0 在其七大核心能力上都有不同程度的提升。

图片

其中代码能力、数学能力、主动对话、小样本学习、多模态指令跟随、个性化等能力是此次提升的重点和亮点。

先从代码能力上看星火 3.0 版本进一步提高了代码的项目级理解能力大模型能够理解和执行更复杂的代码生成要求适用场景增多降本增效效果更加明显。

发布会上刘庆峰展示了一个简单的 Python 生成 Prompt要求大模型 “用 Python 代码画出一个大大的心形然后里面大大小小的五颜六色的很多星星逐步呈现出来。”新版本大模型在代码能力上的项目理解能力被强化不再只能执行单一的任务要求。

在全新的星火大模型对话页面Python 能力也被单独归纳成为一个小组件可供用户在单独环境下使用。

图片

由于发布会上介绍升级过后的星火大模型在 Python 代码生成能力上已经超越了 ChatGPT但距离 GPT-4 还有一定差距。

机器之心第一时间体验了讯飞星火 V3.0接下来我们选取一个 Python 问题 ——“编写一个 Python 程序实现一个简单的聊天机器人能够回答用户的问题”分别让 ChatGPT 以及星火 3.0 进行生成最后用 GPT-4 对这两者的答案进行检验和点评。

讯飞星火 V3.0 的回答速度很快几乎没有停顿时间

# Python高级工程师解法
# 依赖库chatterbot

from chatterbot import ChatBot
from chatterbot.trainers import ChatterBotCorpusTrainer

chatbot = ChatBot('Chatbot')
trainer = ChatterBotCorpusTrainer(chatbot)

# 使用英文语料库训练它
trainer.train("chatterbot.corpus.english")

# 获取用户输入
user_input = input("User: ")

# 获取机器人的回答
bot_response = chatbot.get_response(user_input)

print("Chatbot: ", bot_response)

根据 GPT-4 对此段代码验证和点评这段代码并没有错误并且足够简洁地完成了 Prompt 提出的问题。

图片

接下来同一个问题我们比对一下 ChatGPT 的回答


import random

# 定义聊天机器人的回答
responses = {
    "你好": "你好有什么我可以帮助你的吗",
    "你叫什么名字": "我是ChatGPT一个聊天机器人。",
    "你喜欢什么食物": "我不吃东西因为我是一个程序。",
    "再见": "再见如果有任何问题随时来找我",
    "默认回答": "抱歉我不太明白你的问题。请再问一次。",
}

# 定义聊天机器人的主要函数
def chat():
    print("你好我是一个聊天机器人。请输入你的问题或者说 '再见' 来结束对话。")
    while True:
        user_input = input("用户: ")
        response = get_response(user_input)
        print("聊天机器人: " + response)

        if user_input == "再见":
            break

# 根据用户输入获取回答
def get_response(user_input):
    user_input = user_input.lower()
    for key in responses:
        if key in user_input:
            return responses[key]
    return responses["默认回答"]

# 运行聊天机器人程序
if __name__ == "__main__":
    chat()

GPT-4 对上述代码的点评显示GPT3.5 所构建的代码同样是一个足够简洁且能够实现预设功能的代码但是它可能存在 “面对复杂或意图不清的问题时不够准确” 的问题。

图片

将两段代码进行综合对比GPT-4 罗列了两者各自的优缺点在能基本完成任务的前提下两个大模型所生成的回答各有优缺点。星火 V3.0 生成的代码拥有更高的可扩展性在更复杂的开发场景和项目制工作中星火 V3.0 在代码生成上会更具优势。

图片

除了代码能力数学能力的升级也是本次讯飞星火 V3.0 的重点大模型能够自动提炼数学规律。由于教育是科大讯飞一直以来的重点落地场景讯飞在教育领域积累了大量数据此次所升级的能力也将用于讯飞 AI 学习机之中。在测试中小学、初中、高中不同难度的数学题星火大模型 V3.0 都能够流畅回答并且准确率为 100%。

图片

同样的问题ChatGPT 与星火的答案基本一致不过解题步骤上略有繁杂。在第一个问题上ChatGPT 在答案上多做了一步常识性筛选将香蕉数量进行了取整。

图片

图片

而 GPT-4 则在这三道题中表现失常。其中第二题求解等差数列首项和公差GPT-4 得出了错误答案 a=2、d=2。机器之心将第二道题目单独取出提问多次提问 GPT-4均得到错误答案。

图片

在多模态方面星火 V3.0 在指令跟随与细节表达等能力上进一步提升大模型能够理解更新颖、细节的 Prompt并且表现地更加丰富。

图片

在多模态能力提升的加持下没有绘画和创作基础的普通人也可以通过和讯飞星火大模型 V3.0 的人机互动发挥自己的奇思妙想进行 “儿童绘本制作”。

只需要打开 “有声绘本创作助手”随意输入你的想法比如一只兔子想去太空冒险然后持续跟模型对话模型会自动扩写故事线并且根据故事进行绘画。即使在多轮对话下故事和图片内的主要人 / 物都会自动延续所设定的 IP 特色。创作结束后就可以导出绘本故事到本地。

图片

除了上文提到的 ““python 大脑”、“绘本制作”在全新的讯飞星火大模型对话界面被包装好的模版化 “助手” 已经十分丰富还有 “法律咨询”、“文本扩写” 等等。

“直到现在我们发现大家对大模型仍然有两个期待一个是大模型不仅要能回答问题还要能够就是主动提出问题主动交互。另一个大模型不仅要有权威知识的信息还要有能反映个性的能力”刘庆峰提出大模型正在从通用进化到个性。

在发布会现场科大讯飞研究院院长刘聪要求大模型用 “孔夫子” 的人设来为自己写作一篇特色演讲稿AI 也可以有了人设。

图片

更进一步还可以上传关于自己的语料如既往工作演讲资料来训练一个更符合自己风格的 AI让大模型以自己的方式来为自己写演讲稿。

图片

如果想要更加有个人风格一些还可以继续上传一些生活沟通记录比如和家人的聊天记录让大模型更懂自己的说话方式。在现场刘聪使用自己的个人助手给女儿写了一封有个人风格的沟通信信里陈述的方式就是刘聪本人的说话方式。

图片

除了可以自己训练讯飞星火大模型 V3.0 新增的 “友伴” 功能已经训练了一些经典影视剧和文学作品中的人设我们可以在广场中选择他们并跟他们聊天。

图片

图片

当然在平台中内置了自定义人设功能我们可以自己设定自己想要的 AI 人设根据性格模拟、情绪理解、表达风格生成自己喜欢的对话对象。“这不只是聊天还可以释放灵感、教育孩子、解放情绪”刘庆峰说。

机器之心在讯飞星火 App 尝试创建一个自己喜欢的 AI 人设。输入姓名后可以设定它的头像、声音、随机为它增加身份描述。它的人设是一个天真无邪有着小朋友声音的小学生它是一个火星居民正在准备开始它的太空旅行。

图片

还可以精调它的性格调整外向性、抗压性、友好度等为它打造一个你喜欢的性格特征。

图片

最后 就可以顺利开启对话了。和可爱小朋友“Aliceeee”的对话过程中“Aliceeee”自己的人设意识相对连贯能够按照人设对问题做出反应我们可以跟“Aliceeee”一起开太空旅行的脑洞进行天马行空但有“Aliceeee”逻辑的想象。

图片

此外受益于讯飞星火大模型生态的发展在如今的大模型对话页面在涉及到简历生成、流程图制作、PPT 制作、文档问答等特定场景平台可以支持打开相关插件获得更加专业的生成服务。

以 PPT 制作为例我打开了 PPT 制作插件然后在对话框中输入 “请帮我制作一份介绍讯飞星火 V3.0” 的 PPT系统识别要求后开始调用 PPT 制作插件大约在 3 秒后一份 PPT 文件就显示制作好了并可供下载生成质量能够达到基本的使用需要。

图片

图片

 连续发布多款落地应用将在 2024 年实现对标 GPT-4

经过过去一年的加速发展目前国内领先厂商的自研大模型水平已基本达到 GPT3.5下一阶段应用落地成为大模型的重点。金融、法律、教育、营销等常见的行业大模型已经在部分具体场景中发展成熟开始产生实际价值。此次发布会上讯飞在教育、医疗科研、代码领域发布了多款新产品。

正式发布医疗大模型讯飞晓医 APP 为每个家庭提供健康助手

此次发布会上讯飞正式对外发布医疗领域大模型以及搭载了医疗大模型的 “讯飞晓医” APP集成了症状自查、报告解读、医疗信息快速查询、健康档案管理等功能。比如当用户不知道怎么准确表达自己的病情不知道买药该注意什么禁忌想要快速比对自己不同时期的体检报告时可以直接询问讯飞晓医。

和其他场景不一样医疗场景的大模型对结果的容错率更低出错带来的风险性更高。讯飞星火医疗大模型通过上线实际使用数据抽查 12 万例并通过国家科技信息资源综合利用与公共服务中心STI第三方测试数据显示讯飞星火医疗大模型在医疗海量知识问答、医疗复杂语言理解、医疗专业文本生成、医疗诊断治疗推荐的问题回答率全面超越 GPT-4。

发布 AI 心理伙伴 “小星”帮助青少年舒缓心理困扰

AI 心理咨询师 “小星” 是科大讯飞基于星火认知大模型推出的一款帮助青少年舒缓心理困扰的多模态心理产品它能够通过视频、语音、文字等多模态方式与青少年展开类人自由对话理解青少年的情绪情感表达接纳与共情促进青少年自我觉察并提供个性化行动建议。

“小星” 具备多模态情感识别、共情表达、寻因式提问、个性化心理指导四大核心能力具有极其丰富的心理学知识 ——10 亿 + 条心理类数据、40 万 + 篇期刊文献、100 万 + 通脱敏心理对话案例、550 万 + 个心理评估数据。

智能编程助手 iFlyCode 升级 2.0 版本代码能力超越 ChatGPT

持续提升的代码能力在产品上的落地效果已经十分明显。刘庆峰表示自讯飞星火发布以来代码能力持续升级星火 3.0 已基本全面超越 ChatGPT正在追赶 GPT-4。

搭载讯飞星火 V3.0 的智能编程助手 iFlvCode2。0 正式发布后发现产品在编程的设计阶段提效 50%、开发阶段提效 37%、测试阶段提效 44%大幅提升软件从业人员效率。

以智慧课堂的从 Windows 到 Linux 跨平台移植为例项目代码超过 20 万行在智能编程助手 iFlyCode 的帮助下开发时间从传统方式在的 3 个月缩短到了一个月。

iFlyCode 发布以来已在京东云、软通动力等 107 家机构实现深度对接应用。今年 11 月份几乎全国所有软件名城都会和科大讯飞开展相关合作。

发布会上讯飞联合华为还共同发布了 “飞星一号” 大模型算力平台此前讯飞和华为 “联合特战队” 半年内实现星火大模型训练和推理效率均翻番。

“大模型时代的大幕才刚刚揭开改变世界的伟大征程才刚刚开始。” 刘庆峰透露对标 GPT-4 的更大参数规模的星火大模型正式启动训练2024 年将实现对标 GPT-4。

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6
标签: ChatGPT