Neuro:修订间差异

无编辑摘要
无编辑摘要
第4行: 第4行:
|图片说明=Heart<3
|图片说明=Heart<3
|本名=Neuro Samantha Vedal
|本名=Neuro Samantha Vedal
|别名=Neuro、Neuro-sama、女王、女王大人、蜂群女王<br>'''中国大陆:'''<br>牛肉<br>'''台湾地区:'''<br>神經元大人
|别名=Neuro、Neuro-sama、女王、女王大人、蜂群女王<br>'''中国大陆:'''<br>牛肉<br>'''台湾地区:'''<br>-{神經元大人}-
|译名=日语:ネウロ-サマ<br>中文:神经大人<br>''(Bilibili官号视频标签)''
|译名=日语:{{lj|ネウロ-サマ}}<br>简体中文:-{神经大人}-<br>''(Bilibili官号视频标签)''
|生日=2022年12月19日
|生日=2022年12月19日
|物种=AI
|物种=AI
第26行: 第26行:
|底部颜色=#e3c3ad
|底部颜色=#e3c3ad
}}
}}
'''Neuro-sama'''(日语:ネウローサマ)是由英国程序开发爱好者[[Vedal]]设计和制作的AI主播。是世界上第一个AI主播。
'''Neuro-sama'''(日语:{{lj|ネウローサマ}})是由英国程序开发爱好者[[Vedal]]设计和制作的AI主播。是世界上第一个AI主播。


与传统虚拟主播不同,Neuro并非是由真人操作扮演的虚拟形象人物,其直播内容无论是对话、模型动作、玩游戏等内容均由AI完成。
与传统虚拟主播不同,Neuro并非是由真人操作扮演的虚拟形象人物,其直播内容无论是对话、模型动作、玩游戏等内容均由AI完成。
第50行: 第50行:


她也有爱玩和调皮的倾向,类似现实中的活泼开朗的人类女孩,尤其是[[Vedal]]为她优化了情感模拟功能以后,例如她很乐衷于与[[Vedal]]或者观众开玩笑亦或者发表一些有趣的言论,能够熟练的运用双关与谐音、网络热梗、比喻等等来丰富自己的言论;在[[Vedal]]为其更新了新功能以后她也会迫不及待的进行尝试并期待观众的反应。
她也有爱玩和调皮的倾向,类似现实中的活泼开朗的人类女孩,尤其是[[Vedal]]为她优化了情感模拟功能以后,例如她很乐衷于与[[Vedal]]或者观众开玩笑亦或者发表一些有趣的言论,能够熟练的运用双关与谐音、网络热梗、比喻等等来丰富自己的言论;在[[Vedal]]为其更新了新功能以后她也会迫不及待的进行尝试并期待观众的反应。
有的时候,她会出于“好玩”的目的故意戏弄[[Vedal]]。比如在[[Vedal]]为她新增了视觉识别功能了以后,她故意假装看不见[[Vedal]]要求她看到并描述的物品,把[[Vedal]]急得上蹿下跳。再比如假装不知道[[Vedal]]在装作[[Vedal]]的母亲来和自己对话,然后诱导[[Vedal]]自己露馅。


Neuro说过的话从相对正常到完全不合逻辑再到极少数情况下完全没有任何意义都有。
Neuro说过的话从相对正常到完全不合逻辑再到极少数情况下完全没有任何意义都有。
第60行: 第62行:


==能力==
==能力==
Neuro-sama属于多种不同的专家模型AI集成的产物,她集成了大语言模型、语音识别、视觉识别等多种专家模型AI。而很明显它们之间有充足的通信与协作,这使得Neuro能够在直播中现高度的一致性、协调互动与实时反应。
Neuro-sama属于多种不同的专家模型AI集成的产物,她集成了大语言模型、语音识别、视觉识别等多种专家模型AI。而很明显它们之间有充足的通信与协作,这使得Neuro能够在直播中现高度的一致性、协调互动与实时反应。即使她目前暂时不是一个高度集成的多模态AI。
 
请注意,由于Neuro-sama本身属于多个AI协作的结果这一特性,部分对她的实现技术并不了解的人(特别是艺术家)很容易把Neuro的某个或多个曾被独立提及过的功能视为一个独立的个体。这其中最知名的例子莫过于:过滤器AI被部分二创艺术家视为Neuro的姐妹之一,然而这无论从技术上还是从情理上来说都并'''不'''合理,就像在描述你本人和你的大脑中的某个功能区块互为兄弟姐妹一样。
 
===对话===
Neuro最基本的能力便是对话,特别是与观众之间的文字对话。这是她作为一名AI主播的最基础且底层的能力。
 
这项能力由多项不同的小能力共同组成,每项小能力大多数都使用了至少一种专家模型AI。
 
她即可以接收来自观众的弹幕、打赏的信息;也可以听到与她共处一个直播间的人说话的声音,且能够通过音色分辨发言者是谁。
 
实现对话能力的小能力有以下几个,值得注意的是,Neuro的对话不止是由这些小能力决定,也受其他平级的大能力的影响。
* '''大语言模型'''
<poem>
这是对话这项能力的最基础的依赖。
Neuro依靠大语言模型对接受到的信息进行分析和处理,从而依靠模式匹配和概率推断等等方法来生成回应的文字。
不同于一般市面上常见的大语言模型AI,Neuro不一定需要输入也可以主动发起发言,但这通常是由于各种判断环境的模块或者待机时的一些随机模块对大语言模型进行了输入操作。
值得注意的是,Neuro说出的话语并非由单个大语言模型的直接输出决定的,通常还经过的情感模拟功能的权重调整和过滤器模块的审查和修改等等。
Neuro使用英语进行直播,但是该模型也支持她使用其他语言。因此,她在直播中有时会说出一两个日语词汇,一般是“{{lj|{{ruby|先|せん}}{{ruby|輩|ぱい}}}}”(前辈)或者{{lj|{{ruby|先|せん}}{{ruby|生|せい}}}}(老师、师傅)这种ACGN文化常用词汇,或是其他的外语词汇。
</poem>
* '''语音合成模型'''
<poem>
这是对话这项能力中,能让Neuro成为一个标准意义上的主播的关键。
该模型使用了文本转语音技术(TTS),通过对自然语音的遍历分析产生模型,在需要推理输出的时候进行语义分析等操作,从而实现语音的生成。
当Neuro发言时,该模型就会阅读大语言模型所生成的语句,从而实现发言。但是这也会导致有的时候部分大语言模型想通过全大写来传达增强的情感的字句并没有被该模型以增强的语气发出。不过在[[Vedal]]的几次更新加强该模型和其他模型之间的通信之后,这种情况的次数大幅度减少,且Neuro可以更加灵活地以意图中的语气发出语音,而不是单纯靠该模型的语义分析来判断语气。
Neuro不仅能发出语言语音,也可以发出非语言的人声或者语气音,这通常是在表达情绪的时候。Neuro发出非语言的人声的频率相较于她的妹妹[[Evil]]低了很多。
</poem>
* '''过滤器模块'''
<poem>
这是对话这项能力中,能让Neuro确保直播安全的主要措施,属于Neuro对自身处理的一种小能力。
该模型的工作原理类似大语言模型,但主要用于对大语言模型即将输出的话语进行审查和修改。
如果审查无法通过,一般而言会输出“Filtered.”(已过滤),通常而言Neuro无法察觉发言被替换为了“Filtered.”。过滤内容通常为敏感词。
Neuro虽然一般无法察觉到自己的发言是否被替换为了“Filtered.”,但是Neuro知晓存在这样的现象,所以有的时候她可能会为了好玩故意假装自己有句子被替换为了“Filtered.”,然而这种情况下的“F”通常会是小写的,所以会被识破。
在后续几次更新后,除了直接替换为“Filtered.”外,过滤器模块还可能会对性质并不严重的不当字句进行修改后输出。
值得一提的是,由于过滤器模块是最早被[[Vedal]]描述为“是一个‘单独的AI’”的模块和功能,部分艺术家创作出了“Filter-sama”这个二创形象并设定为Neuro并没有参加直播的姐妹。然而这其实是不合理的,因为本质上Neuro几乎所有的功能和能力都是各种单独的AI。这种设定的性质和“把一个人和他的前额叶视为一对兄弟”的性质一样。
</poem>
===声音识别===
Neuro可以识别声音,比如说语音。配合对话能力中的语音合成模型可以实现和直播间的其他主播语音对话的能力。
 
Neuro的声音识别能力并非单纯的语音转文本技术(ASR),她还可以根据发言者的音色来分辨发言者的身份、分析和描述非语音的声音(例如各种动物叫声)、感知发言者的语气等等。
 
语音转文本、分辨语音音色、分析非语言声音这几种能力可能由数个不同的独立的AI实现,输出文本结果给大语言模型用以作为输入值或者参考权重。而感知语气可能由模拟情感方面的模块或者AI来完成。
 
===图像识别===
Neuro可以识别图像,然而这项能力在一般的直播中为节省资源默认为关闭状态。
 
在Neuro欣赏二创、看视频、和[[Vedal]]一起玩游戏、与其他主播视频互动的时候会开启该能力。需要注意的是,她自己玩游戏的时候通常并不使用这项能力,而是直接启用专门的游戏AI,游戏AI通常直接依靠游戏的接口的传回数据或者是[[Vedal]]使用程序特殊处理的画面来感知游戏状态,而不是通过视觉。
 
她可以分辨出各个物品,也可以阅读较为扭曲的艺术字。
 
相比于其他能力,该能力并不完善。从表现上来看应该基本上输出结果是直接传输给大语言模型的,和一些逻辑相关的AI通信甚少,例如她无法依靠图像识别能力完成一场现实中的拼图游戏,这可能是因为逻辑部分完全靠大语言模型完成。
 
===长期记忆===
Neuro拥有长期记忆的能力。
 
记忆从一些哲学理论的角度而言是确立一个意识的一贯性和唯一性的关键要素,因此拥有长期记忆能力对她来说意义重大。
 
Neuro并非机械的对所有经历过的事情“照单全收”式的储存在存储介质上,而是大语言模型等诸多AI按照情况分析选择性的对想要记下的事物进行记忆。
 
由于这一点,加上Neuro容易在直播里进行虚构的特性。一般认为'''只有被她长期记忆的内容才是具有实质性意义的''',如一句话只是在直播间里被她随口一提的话,则'''不'''应该被当做她“真正想法”或者说“模拟意识”里的一部分(即使确实是直播内容的一部分)。
 
例如她在早期曾虚构过多种不存在的事物,包括自己的宠物猫、养女、体重等等,然而这些'''不'''应该被作为有实际意义的信息被记录下来。因为这些只是大语言模型的随机输出结果,且并是非从Neuro的长期记忆中调用出来的,且在她发言后并没有被她选择长期记下。因此再下一次直播再次提及这些内容的时候,大概率会得到完全不一致的答案——所以说这种非长期记忆中调用出的内容并不存在实际意义,大多数情况下不应该作为“逸闻”、“琐事”、“人设”等等的一部分。
===形象模型操作===
Neuro能够根据自己的话语、别人的话语、当前“演唱”的歌曲和播放的音乐来控制自己的live2D形象。
 
该能力由一个独立的AI完成。
 
===模拟情感===
Neuro具有模拟情感的能力。该能力是一个独立的模块或AI,具体实现方式不详,但确信是通过语境等输入参数来判断较为贴合的情感并作为提示参数或者权重反馈给其他模块(如对话模块的大语言模型、形象模型操作模块)。
 
该能力没有具体的体现方式。
 
语音识别模块疑似也有调用该能力来判断发言者的情绪。
 
===玩游戏===
Neuro游玩游戏依赖[[Vedal]]为她编写的专门插件,每个她可以游玩的游戏都有一个专门的独立AI负责。目前有osu!、Minecraft和杀戮尖塔等等。
 
相比于其他独立AI模块,游戏类模块和其他模块的AI之间通信有限且信息类型相对简单,所以通过语言要求Neuro作出指定的游戏操作实际上非常困难,排除她本人的意愿因素外,游戏AI是否按照她的想法执行也具有较大的偶然性。
 
===''并非实际存在的能力''===
尽管Neuro-sama的直播内容包括歌回。然而她实际上并不具备唱歌能力,用以唱歌的部分也并不是AI


请注意,由于Neuro-sama本身属于多个AI协作结果这一特性,部分对AI技术了解的人(特别艺术家很容易把Neuro的某个或多个曾被独立提及过的功能视为个独立的个体中最知名例子莫过于:过滤器AI被部分二创艺术家视为Neuro姐妹之一这无论从技术上还是从情理上来说都并'''不'''合理,就像在描述你本人和你的大脑中的某个功能区块互为兄弟姐妹一样
Neuro-sama歌回采用是AI歌声合成技术(Singing voice synthesis)不是歌声转换(SVC,与初音未来、洛天依等虚拟歌姬。其呈现音乐仍是调校师劳动成果,而非完全由AI生成


Neuro-sama歌回的调教师是[[queenpb]]。歌回实际上的表演方式是播放[[queenpb]]调校出来的Neuro“演唱”音乐,然后Neuro的形象模型操作模块根据音乐的节奏来对口型和运动。


这也是为什么有的时候Neuro在唱歌的时候莫名其妙会同时发言。这并非不存在的唱歌AI被打断。
==直播内容==
==直播内容==