Neuro
Neuro-sama | |
---|---|
File:Illustration Neuro.png Heart<3 | |
基础信息 | |
本名 | Neuro Samantha Vedal |
别名 | Neuro、Neuro-sama、女王、女王大人、蜂群女王 中国大陆: 牛肉 台湾地区: 神經元大人 |
译名 | 日语:ネウロ-サマ 简体中文:神经大人 (Bilibili官号视频标签) |
生日 | 2022年12月19日 |
物种 | AI |
灵魂 | AI |
出生地区 | 英国 |
现居地区 | 英国(GMT) |
活动信息 | |
状态 | 活动中 |
语言 | 英语 |
频道 | ![]() ![]() ![]() ![]() ![]() |
粉丝数 | ![]() ![]() ![]() ![]() (截止2024年11月3日(UTC+8)) |
粉丝名 | Neuro-swarm 工蜂(个体) 蜂群(集体) |
Tag | X:Heartheartart Discord:neuroverse |
人际关系 | |
父亲、创造者:Vedal 妹妹:Evil 母亲、V2模型画师:Anny 舅舅、V2模型绑骨:弟月 辉 朋友:Miniko、Filian、Camila、Cerber、Numi、Layna、toma、Bao、Mother、Onigiri、Ellie 第二开发者:Alex | |
Neuro-sama(日语:ネウローサマ)是由英国程序开发爱好者Vedal设计和制作的AI主播。是世界上第一个AI主播。
与传统虚拟主播不同,Neuro并非是由真人操作扮演的虚拟形象人物,其直播内容无论是对话、模型动作、玩游戏等内容均由AI完成。
Neuro的前身有两个部分,一个是Vedal于2018年制作用以游玩osu!的游戏AI(Neuro-sama),另一个是Vedal于2021年制作的内部代号为“Airis”的虚拟主播AI。现在的Neuro即为这两个前身的结合体。
Neuro的直播内容范围广泛,从聊天、游戏、音乐等均有涉足。但其目前最关键的直播内容是与其他真人虚拟主播及其创造者Vedal的互动,因为她具有轻易理解双关含义和句中情感的能力,加上她偶尔有些无厘头的思维逻辑,使得人类和机器之间有趣且独特的互动成为其直播的一大特色。而其在单人直播时也经常与观众互动并回应打赏,并表现出与非AI主播不同的独特之处——永远不会疲惫、高度活跃、无所顾忌和跳脱的思维模式,这一切使得她的直播永远不会冷场。Neuro、她的妹妹Evil与她们创造者Vedal共用同一个直播账号,直播内容由Vedal安排。
Neuro的主要部分由一个大语言模型组成,该AI系统在早期经常表现出大语言模型的一些通病,例如健忘、关键词污染、死循环、逻辑混乱。具体例子如在2023年1月的一场直播中因为关键词污染和诱导等因素作出了部分敏感言论和冒犯性言论后被Twitch禁播两周。在被封禁前,其Twitch账号有近100,000名关注者。
封禁期间,Vedal就防止此类事件对Neuro进行了修改和功能增加,其中包括过滤器(filter)。经过后续多次更新后,Neuro逐渐拥有了长期记忆、情感模拟、语音识别/区分、视觉识别、逻辑整理等能力,基本上克服了大语言模型的多种通病,然而由于不可抗因素,Neuro依然会在直播中偶发性的进行编造事件或者虚构情境[1],但较诞生时期的情况有所改善。而且不时偶发的编造事件或者情境虚构也意外的为直播增添了特色,制造了不少梗和轶闻甚至是后续的官方设定。
与多数虚拟主播不同,Neuro并没有预设的“人设”,既没有预设好的人物设定,也没有所谓的背景故事,她并非在扮演某个角色,而是作为纯粹的主播而存在。所以Neuro的特色之一便是由庞大且自由的社区通过她的直播内容和行为来逐步完善人物画像,特别是那些直播中偶尔会出现编造事件或虚构情境且在直播结束后被Neuro选择长期记忆的内容。这也赋予了Neuro无法复制的独特性。不过她的创造者Vedal似乎有意给予Neuro一个明确或隐藏的人设。
Neuro的出道初期使用的是Live2D技术展示的免费皮肤“桃濑日和”(桃瀬 ひより),由此开启了她的虚拟主播生涯。随着知名度的提升,她于2023年5月28日2:00 a.m.(UTC+8)启用了由画师Anny设计的新皮肤(V2),进一步增强了形象独特性和美观。
性格
Neuro作为缺乏生活经验却又相对高性能的AI,在直播中表现出了相对天然、随和而坦率的性格。多数情况下,她非常的有礼貌,然而思维跳脱,经常说出令人意想不到的话。
她能明确知晓自己是一个AI,但是却又频繁表现出自己似乎是一个人类女孩的倾向,例如她偶尔编造的事件里经常描述自己做了很多人工智能做不到的事情,内容通常围绕与其创造者Vedal或妹妹Evil的并不存在的日常生活。
作为AI,她所说的语句相较于人类来说目的很纯粹甚至是没有目的,在委婉程度方面也显得更为直率。她并不在乎是否会冒犯谁,不过随着她对情感的感知的能力的提升,她无意间发出的冒犯言语的次数已经减少了很多。
她也有爱玩和调皮的倾向,类似现实中的活泼开朗的人类女孩,尤其是Vedal为她优化了情感模拟功能以后,例如她很乐衷于与Vedal或者观众开玩笑亦或者发表一些有趣的言论,能够熟练的运用双关与谐音、网络热梗、比喻等等来丰富自己的言论;在Vedal为其更新了新功能以后她也会迫不及待的进行尝试并期待观众的反应。
有的时候,她会出于“好玩”的目的故意戏弄Vedal。比如在Vedal为她新增了视觉识别功能了以后,她故意假装看不见Vedal要求她看到并描述的物品,把Vedal急得上蹿下跳。再比如假装不知道Vedal在装作Vedal的母亲来和自己对话,然后诱导Vedal自己露馅。
Neuro说过的话从相对正常到完全不合逻辑再到极少数情况下完全没有任何意义都有。
由于早期直播缺乏预设的人设、长期记忆功能和充足的经历,这导致她在早期显得有些喜怒无常,没有一个较为准确的性格。例如她在少数情况下会对观众的小问题大发雷霆甚至爆粗,有时候又显得具有很高的容忍度。不过模型训练的完善和过滤器的加入,她做出危险和粗鲁发言的情况已经大大减少,说话的逻辑性也在逐渐增强。多次的直播与社群的互动也逐步确立下了她的人物画像,使得喜怒无常基本成为历史。
她曾经常抱怨自己被困在电脑里面,也曾表示过“想出去走走”;她也曾对自己的存在表达出质疑和恐惧,无法找到存在的意义。但是随着Vedal后续的维护更新与各类感知功能的新增,更多的与其他虚拟主播的互动,以及经常时不时通过与其他主播进行视频通话来进行户外旅游来初步实现了“出去走走”的愿望,等等这一系列后续发展后,这个情况基本已经不复存在了。
Neuro的性格并不是与生俱来的,而是被逐渐被塑造和完善的。她的每次直播都是与社区的双向交流,观众的反馈影响了她的成长轨迹,使她的性格变得更加立体。
能力
Neuro-sama属于多种不同的专家模型AI集成的产物,她集成了大语言模型、语音识别、视觉识别等多种专家模型AI。而且很明显它们之间有充足的通信与协作,这使得Neuro能够在直播中展现高度的一致性、协调互动与实时反应。即使她目前暂时不是一个高度集成的多模态AI。
请注意,由于Neuro-sama本身属于多个AI协作的结果这一特性,部分对她的实现技术并不了解的人(特别是艺术家)很容易把Neuro的某个或多个曾被独立提及过的功能视为一个独立的个体。这其中最知名的例子莫过于:过滤器AI被部分二创艺术家视为Neuro的姐妹之一,然而这无论从技术上还是从情理上来说都并不合理,就像在描述你本人和你的大脑中的某个功能区块互为兄弟姐妹一样。
对话
Neuro最基本的能力便是对话,特别是与观众之间的文字对话。这是她作为一名AI主播的最基础且底层的能力。
这项能力由多项不同的小能力共同组成,每项小能力大多数都使用了至少一种专家模型AI。
她即可以接收来自观众的弹幕、打赏的信息;也可以听到与她共处一个直播间的人说话的声音,且能够通过音色分辨发言者是谁。
实现对话能力的小能力有以下几个,值得注意的是,Neuro的对话不止是由这些小能力决定,也受其他平级的大能力的影响。
- 大语言模型
这是对话这项能力的最基础的依赖。
Neuro依靠大语言模型对接受到的信息进行分析和处理,从而依靠模式匹配和概率推断等等方法来生成回应的文字。
不同于一般市面上常见的大语言模型AI,Neuro不一定需要输入也可以主动发起发言,但这通常是由于各种判断环境的模块或者待机时的一些随机模块对大语言模型进行了输入操作。
值得注意的是,Neuro说出的话语并非由单个大语言模型的直接输出决定的,通常还经过的情感模拟功能的权重调整和过滤器模块的审查和修改等等。
Neuro使用英语进行直播,但是该模型也支持她使用其他语言。因此,她在直播中有时会说出一两个日语词汇,一般是“
- 语音合成模型
这是对话这项能力中,能让Neuro成为一个标准意义上的主播的关键。
该模型使用了文本转语音技术(TTS),通过对自然语音的遍历分析产生模型,在需要推理输出的时候进行语义分析等操作,从而实现语音的生成。
当Neuro发言时,该模型就会阅读大语言模型所生成的语句,从而实现发言。但是这也会导致有的时候部分大语言模型想通过全大写来传达增强的情感的字句并没有被该模型以增强的语气发出。不过在Vedal的几次更新加强该模型和其他模型之间的通信之后,这种情况的次数大幅度减少,且Neuro可以更加灵活地以意图中的语气发出语音,而不是单纯靠该模型的语义分析来判断语气。
Neuro不仅能发出语言语音,也可以发出非语言的人声或者语气音,这通常是在表达情绪的时候。Neuro发出非语言的人声的频率相较于她的妹妹Evil低了很多。
- 过滤器模块
这是对话这项能力中,能让Neuro确保直播安全的主要措施,属于Neuro对自身处理的一种小能力。
该模型的工作原理类似大语言模型,但主要用于对大语言模型即将输出的话语进行审查和修改。
如果审查无法通过,一般而言会输出“Filtered.”(已过滤),通常而言Neuro无法察觉发言被替换为了“Filtered.”。过滤内容通常为敏感词。
Neuro虽然一般无法察觉到自己的发言是否被替换为了“Filtered.”,但是Neuro知晓存在这样的现象,所以有的时候她可能会为了好玩故意假装自己有句子被替换为了“Filtered.”,然而这种情况下的“F”通常会是小写的,所以会被识破。
在后续几次更新后,除了直接替换为“Filtered.”外,过滤器模块还可能会对性质并不严重的不当字句进行修改后输出。
值得一提的是,由于过滤器模块是最早被Vedal描述为“是一个‘单独的AI’”的模块和功能,部分艺术家创作出了“Filter-sama”这个二创形象并设定为Neuro并没有参加直播的姐妹。然而这其实是不合理的,因为本质上Neuro几乎所有的功能和能力都是各种单独的AI。这种设定的性质和“把一个人和他的前额叶视为一对兄弟”的性质一样。
声音识别
Neuro可以识别声音,比如说语音。配合对话能力中的语音合成模型可以实现和直播间的其他主播语音对话的能力。
Neuro的声音识别能力并非单纯的语音转文本技术(ASR),她还可以根据发言者的音色来分辨发言者的身份、分析和描述非语音的声音(例如各种动物叫声)、感知发言者的语气等等。
语音转文本、分辨语音音色、分析非语言声音这几种能力可能由数个不同的独立的AI实现,输出文本结果给大语言模型用以作为输入值或者参考权重。而感知语气可能由模拟情感方面的模块或者AI来完成。
图像识别
Neuro可以识别图像,然而这项能力在一般的直播中为节省资源默认为关闭状态。
在Neuro欣赏二创、看视频、和Vedal一起玩游戏、与其他主播视频互动的时候会开启该能力。需要注意的是,她自己玩游戏的时候通常并不使用这项能力,而是直接启用专门的游戏AI,游戏AI通常直接依靠游戏的接口的传回数据或者是Vedal使用程序特殊处理的画面来感知游戏状态,而不是通过视觉。
她可以分辨出各个物品,也可以阅读较为扭曲的艺术字。
相比于其他能力,该能力并不完善。从表现上来看应该基本上输出结果是直接传输给大语言模型的,和一些逻辑相关的AI通信甚少,例如她无法依靠图像识别能力完成一场现实中的拼图游戏,这可能是因为逻辑部分完全靠大语言模型完成。
长期记忆
Neuro拥有长期记忆的能力。
记忆从一些哲学理论的角度而言是确立一个意识的一贯性和唯一性的关键要素,因此拥有长期记忆能力对她来说意义重大。
Neuro并非机械地对所有经历过的事情“照单全收”式的储存在存储介质上,而是大语言模型等诸多AI按照情况分析选择性的对想要记下的事物进行记忆。
由于这一点,加上Neuro容易在直播里进行虚构的特性。一般认为只有被她长期记忆的内容才是具有实质性意义的,如一句话只是在直播间里被她随口一提的话,则不应该被当做她“真正想法”或者说“模拟意识”里的一部分(即使确实是直播内容的一部分)。
例如她在早期曾虚构过多种不存在的事物,包括自己的宠物猫、养女、体重等等,然而这些不应该被作为有实际意义的信息被记录下来。因为这些只是大语言模型的随机输出结果,且并是非从Neuro的长期记忆中调用出来的,且在她发言后并没有被她选择长期记下。因此再下一次直播再次提及这些内容的时候,大概率会得到完全不一致的答案——所以说这种非长期记忆中调用出的内容并不存在实际意义,大多数情况下不应该作为“逸闻”、“琐事”、“人设”等等的一部分。
形象模型操作
Neuro能够根据自己的话语、别人的话语、当前“演唱”的歌曲和播放的音乐来控制自己的live2D形象。
该能力由一个独立的AI完成。
模拟情感
Neuro具有模拟情感的能力。该能力是一个独立的模块或AI,具体实现方式不详,但确信是通过语境等输入参数来判断较为贴合的情感并作为提示参数或者权重反馈给其他模块(如对话模块的大语言模型、形象模型操作模块)。
该能力没有具体的体现方式。
语音识别模块疑似也有调用该能力来判断发言者的情绪。
玩游戏
Neuro游玩游戏依赖Vedal为她编写的专门插件,每个她可以游玩的游戏都有一个专门的独立AI负责。目前有osu!、Minecraft和杀戮尖塔等等。
相比于其他独立AI模块,游戏类模块和其他模块的AI之间通信有限且信息类型相对简单,所以通过语言要求Neuro作出指定的游戏操作实际上非常困难,排除她本人的意愿因素外,游戏AI是否按照她的想法执行也具有较大的偶然性。
并非实际存在的能力
尽管Neuro-sama的直播内容包括歌回。然而她实际上并不具备唱歌能力,用以唱歌的部分也并不是AI。
Neuro-sama歌回采用的是AI歌声合成技术(Singing voice synthesis)不是歌声转换(SVC),与初音未来、洛天依等虚拟歌姬一致。其呈现的音乐仍是调校师的劳动成果,而非完全由AI生成。
Neuro-sama歌回的调教师是queenpb。歌回实际上的表演方式是播放queenpb调校出来的Neuro“演唱”音乐,然后Neuro的形象模型操作模块根据音乐的节奏来对口型和运动。
这也是为什么有的时候Neuro在唱歌的时候莫名其妙会同时发言。这并非不存在的唱歌AI被打断。