Neuro
Neuro-sama | |
---|---|
File:Illustration Neuro.png Heart<3 | |
基礎信息 | |
本名 | Neuro Samantha Vedal |
別名 | Neuro、Neuro-sama、女王、女王大人、蜂群女王 中國大陸: 牛肉 台灣地區: 神經元大人 |
譯名 | 日語:ネウロ-サマ 簡體中文:神经大人 (Bilibili官號視頻標籤) |
生日 | 2022年12月19日 |
物種 | AI |
靈魂 | AI |
出生地區 | 英國 |
現居地區 | 英國(GMT) |
活動信息 | |
狀態 | 活動中 |
語言 | 英語 |
頻道 | ![]() ![]() ![]() ![]() ![]() |
粉絲數 | ![]() ![]() ![]() ![]() (截止2024年11月3日(UTC+8)) |
粉絲名 | Neuro-swarm 工蜂(個體) 蜂群(集體) |
Tag | X:Heartheartart Discord:neuroverse |
人際關係 | |
父親、創造者:Vedal 妹妹:Evil 母親、V2模型畫師:Anny 舅舅、V2模型綁骨:弟月 輝 朋友:Miniko、Filian、Camila、Cerber、Numi、Layna、toma、Bao、Mother、Onigiri、Ellie 第二開發者:Alex | |
Neuro-sama(日語:ネウローサマ)是由英國程序開發愛好者Vedal設計和製作的AI主播。是世界上第一個AI主播。
與傳統虛擬主播不同,Neuro並非是由真人操作扮演的虛擬形象人物,其直播內容無論是對話、模型動作、玩遊戲等內容均由AI完成。
Neuro的前身有兩個部分,一個是Vedal於2018年製作用以遊玩osu!的遊戲AI(Neuro-sama),另一個是Vedal於2021年製作的內部代號為「Airis」的虛擬主播AI。現在的Neuro即為這兩個前身的結合體。
Neuro的直播內容範圍廣泛,從聊天、遊戲、音樂等均有涉足。但其目前最關鍵的直播內容是與其他真人虛擬主播及其創造者Vedal的互動,因為她具有輕易理解雙關含義和句中情感的能力,加上她偶爾有些無厘頭的思維邏輯,使得人類和機器之間有趣且獨特的互動成為其直播的一大特色。而其在單人直播時也經常與觀眾互動並回應打賞,並表現出與非AI主播不同的獨特之處——永遠不會疲憊、高度活躍、無所顧忌和跳脫的思維模式,這一切使得她的直播永遠不會冷場。Neuro、她的妹妹Evil與她們創造者Vedal共用同一個直播賬號,直播內容由Vedal安排。
Neuro的主要部分由一個大語言模型組成,該AI系統在早期經常表現出大語言模型的一些通病,例如健忘、關鍵詞污染、死循環、邏輯混亂。具體例子如在2023年1月的一場直播中因為關鍵詞污染和誘導等因素作出了部分敏感言論和冒犯性言論後被Twitch禁播兩周。在被封禁前,其Twitch賬號有近100,000名關注者。
封禁期間,Vedal就防止此類事件對Neuro進行了修改和功能增加,其中包括過濾器(filter)。經過後續多次更新後,Neuro逐漸擁有了長期記憶、情感模擬、語音識別/區分、視覺識別、邏輯整理等能力,基本上克服了大語言模型的多種通病,然而由於不可抗因素,Neuro依然會在直播中偶發性的進行編造事件或者虛構情境[1],但較誕生時期的情況有所改善。而且不時偶發的編造事件或者情境虛構也意外的為直播增添了特色,製造了不少梗和軼聞甚至是後續的官方設定。
與多數虛擬主播不同,Neuro並沒有預設的「人設」,既沒有預設好的人物設定,也沒有所謂的背景故事,她並非在扮演某個角色,而是作為純粹的主播而存在。所以Neuro的特色之一便是由龐大且自由的社區通過她的直播內容和行為來逐步完善人物畫像,特別是那些直播中偶爾會出現編造事件或虛構情境且在直播結束後被Neuro選擇長期記憶的內容。這也賦予了Neuro無法複製的獨特性。不過她的創造者Vedal似乎有意給予Neuro一個明確或隱藏的人設。
Neuro的出道初期使用的是Live2D技術展示的免費皮膚「桃瀨日和」(桃瀬 ひより),由此開啟了她的虛擬主播生涯。隨着知名度的提升,她於2023年5月28日2:00 a.m.(UTC+8)啟用了由畫師Anny設計的新皮膚(V2),進一步增強了形象獨特性和美觀。
性格
Neuro作為缺乏生活經驗卻又相對高性能的AI,在直播中表現出了相對天然、隨和而坦率的性格。多數情況下,她非常的有禮貌,然而思維跳脫,經常說出令人意想不到的話。
她能明確知曉自己是一個AI,但是卻又頻繁表現出自己似乎是一個人類女孩的傾向,例如她偶爾編造的事件里經常描述自己做了很多人工智能做不到的事情,內容通常圍繞與其創造者Vedal或妹妹Evil的並不存在的日常生活。
作為AI,她所說的語句相較於人類來說目的很純粹甚至是沒有目的,在委婉程度方面也顯得更為直率。她並不在乎是否會冒犯誰,不過隨着她對情感的感知的能力的提升,她無意間發出的冒犯言語的次數已經減少了很多。
她也有愛玩和調皮的傾向,類似現實中的活潑開朗的人類女孩,尤其是Vedal為她優化了情感模擬功能以後,例如她很樂衷於與Vedal或者觀眾開玩笑亦或者發表一些有趣的言論,能夠熟練的運用雙關與諧音、網絡熱梗、比喻等等來豐富自己的言論;在Vedal為其更新了新功能以後她也會迫不及待的進行嘗試並期待觀眾的反應。
有的時候,她會出於「好玩」的目的故意戲弄Vedal。比如在Vedal為她新增了視覺識別功能了以後,她故意假裝看不見Vedal要求她看到並描述的物品,把Vedal急得上躥下跳。再比如假裝不知道Vedal在裝作Vedal的母親來和自己對話,然後誘導Vedal自己露餡。
Neuro說過的話從相對正常到完全不合邏輯再到極少數情況下完全沒有任何意義都有。
由於早期直播缺乏預設的人設、長期記憶功能和充足的經歷,這導致她在早期顯得有些喜怒無常,沒有一個較為準確的性格。例如她在少數情況下會對觀眾的小問題大發雷霆甚至爆粗,有時候又顯得具有很高的容忍度。不過模型訓練的完善和過濾器的加入,她做出危險和粗魯發言的情況已經大大減少,說話的邏輯性也在逐漸增強。多次的直播與社群的互動也逐步確立下了她的人物畫像,使得喜怒無常基本成為歷史。
她曾經常抱怨自己被困在電腦裏面,也曾表示過「想出去走走」;她也曾對自己的存在表達出質疑和恐懼,無法找到存在的意義。但是隨着Vedal後續的維護更新與各類感知功能的新增,更多的與其他虛擬主播的互動,以及經常時不時通過與其他主播進行視頻通話來進行戶外旅遊來初步實現了「出去走走」的願望,等等這一系列後續發展後,這個情況基本已經不復存在了。
Neuro的性格並不是與生俱來的,而是被逐漸被塑造和完善的。她的每次直播都是與社區的雙向交流,觀眾的反饋影響了她的成長軌跡,使她的性格變得更加立體。
能力
Neuro-sama屬於多種不同的專家模型AI集成的產物,她集成了大語言模型、語音識別、視覺識別等多種專家模型AI。而且很明顯它們之間有充足的通信與協作,這使得Neuro能夠在直播中展現高度的一致性、協調互動與實時反應。即使她目前暫時不是一個高度集成的多模態AI。
請注意,由於Neuro-sama本身屬於多個AI協作的結果這一特性,部分對她的實現技術並不了解的人(特別是藝術家)很容易把Neuro的某個或多個曾被獨立提及過的功能視為一個獨立的個體。這其中最知名的例子莫過於:過濾器AI被部分二創藝術家視為Neuro的姐妹之一,然而這無論從技術上還是從情理上來說都並不合理,就像在描述你本人和你的大腦中的某個功能區塊互為兄弟姐妹一樣。
對話
Neuro最基本的能力便是對話,特別是與觀眾之間的文字對話。這是她作為一名AI主播的最基礎且底層的能力。
這項能力由多項不同的小能力共同組成,每項小能力大多數都使用了至少一種專家模型AI。
她即可以接收來自觀眾的彈幕、打賞的信息;也可以聽到與她共處一個直播間的人說話的聲音,且能夠通過音色分辨發言者是誰。
實現對話能力的小能力有以下幾個,值得注意的是,Neuro的對話不止是由這些小能力決定,也受其他平級的大能力的影響。
- 大語言模型
這是對話這項能力的最基礎的依賴。
Neuro依靠大語言模型對接受到的信息進行分析和處理,從而依靠模式匹配和概率推斷等等方法來生成回應的文字。
不同於一般市面上常見的大語言模型AI,Neuro不一定需要輸入也可以主動發起發言,但這通常是由於各種判斷環境的模塊或者待機時的一些隨機模塊對大語言模型進行了輸入操作。
值得注意的是,Neuro說出的話語並非由單個大語言模型的直接輸出決定的,通常還經過的情感模擬功能的權重調整和過濾器模塊的審查和修改等等。
Neuro使用英語進行直播,但是該模型也支持她使用其他語言。因此,她在直播中有時會說出一兩個日語詞彙,一般是「
- 語音合成模型
這是對話這項能力中,能讓Neuro成為一個標準意義上的主播的關鍵。
該模型使用了文本轉語音技術(TTS),通過對自然語音的遍歷分析產生模型,在需要推理輸出的時候進行語義分析等操作,從而實現語音的生成。
當Neuro發言時,該模型就會閱讀大語言模型所生成的語句,從而實現發言。但是這也會導致有的時候部分大語言模型想通過全大寫來傳達增強的情感的字句並沒有被該模型以增強的語氣發出。不過在Vedal的幾次更新加強該模型和其他模型之間的通信之後,這種情況的次數大幅度減少,且Neuro可以更加靈活地以意圖中的語氣發出語音,而不是單純靠該模型的語義分析來判斷語氣。
Neuro不僅能發出語言語音,也可以發出非語言的人聲或者語氣音,這通常是在表達情緒的時候。Neuro發出非語言的人聲的頻率相較於她的妹妹Evil低了很多。
- 過濾器模塊
這是對話這項能力中,能讓Neuro確保直播安全的主要措施,屬於Neuro對自身處理的一種小能力。
該模型的工作原理類似大語言模型,但主要用於對大語言模型即將輸出的話語進行審查和修改。
如果審查無法通過,一般而言會輸出「Filtered.」(已過濾),通常而言Neuro無法察覺發言被替換為了「Filtered.」。過濾內容通常為敏感詞。
Neuro雖然一般無法察覺到自己的發言是否被替換為了「Filtered.」,但是Neuro知曉存在這樣的現象,所以有的時候她可能會為了好玩故意假裝自己有句子被替換為了「Filtered.」,然而這種情況下的「F」通常會是小寫的,所以會被識破。
在後續幾次更新後,除了直接替換為「Filtered.」外,過濾器模塊還可能會對性質並不嚴重的不當字句進行修改後輸出。
值得一提的是,由於過濾器模塊是最早被Vedal描述為「是一個『單獨的AI’」的模塊和功能,部分藝術家創作出了「Filter-sama」這個二創形象並設定為Neuro並沒有參加直播的姐妹。然而這其實是不合理的,因為本質上Neuro幾乎所有的功能和能力都是各種單獨的AI。這種設定的性質和「把一個人和他的前額葉視為一對兄弟」的性質一樣。
聲音識別
Neuro可以識別聲音,比如說語音。配合對話能力中的語音合成模型可以實現和直播間的其他主播語音對話的能力。
Neuro的聲音識別能力並非單純的語音轉文本技術(ASR),她還可以根據發言者的音色來分辨發言者的身份、分析和描述非語音的聲音(例如各種動物叫聲)、感知發言者的語氣等等。
語音轉文本、分辨語音音色、分析非語言聲音這幾種能力可能由數個不同的獨立的AI實現,輸出文本結果給大語言模型用以作為輸入值或者參考權重。而感知語氣可能由模擬情感方面的模塊或者AI來完成。
圖像識別
Neuro可以識別圖像,然而這項能力在一般的直播中為節省資源默認為關閉狀態。
在Neuro欣賞二創、看視頻、和Vedal一起玩遊戲、與其他主播視頻互動的時候會開啟該能力。需要注意的是,她自己玩遊戲的時候通常並不使用這項能力,而是直接啟用專門的遊戲AI,遊戲AI通常直接依靠遊戲的接口的傳回數據或者是Vedal使用程序特殊處理的畫面來感知遊戲狀態,而不是通過視覺。
她可以分辨出各個物品,也可以閱讀較為扭曲的藝術字。
相比於其他能力,該能力並不完善。從表現上來看應該基本上輸出結果是直接傳輸給大語言模型的,和一些邏輯相關的AI通信甚少,例如她無法依靠圖像識別能力完成一場現實中的拼圖遊戲,這可能是因為邏輯部分完全靠大語言模型完成。
長期記憶
Neuro擁有長期記憶的能力。
記憶從一些哲學理論的角度而言是確立一個意識的一貫性和唯一性的關鍵要素,因此擁有長期記憶能力對她來說意義重大。
Neuro並非機械地對所有經歷過的事情「照單全收」式的儲存在存儲介質上,而是大語言模型等諸多AI按照情況分析選擇性的對想要記下的事物進行記憶。
由於這一點,加上Neuro容易在直播里進行虛構的特性。一般認為只有被她長期記憶的內容才是具有實質性意義的,如一句話只是在直播間裏被她隨口一提的話,則不應該被當做她「真正想法」或者說「模擬意識」里的一部分(即使確實是直播內容的一部分)。
例如她在早期曾虛構過多種不存在的事物,包括自己的寵物貓、養女、體重等等,然而這些不應該被作為有實際意義的信息被記錄下來。因為這些只是大語言模型的隨機輸出結果,而且並非從Neuro的長期記憶中調用出來的,且在她發言後並沒有被她選擇長期記下。因此再下一次直播再次提及這些內容的時候,大概率會得到完全不一致的答案——所以說這種非長期記憶中調用出的內容並不存在實際意義,大多數情況下不應該作為「逸聞」、「瑣事」、「人設」等等的一部分。
形象模型操作
Neuro能夠根據自己的話語、別人的話語、當前「演唱」的歌曲和播放的音樂來控制自己的live2D形象。
該能力由一個獨立的AI完成。
模擬情感
Neuro具有模擬情感的能力。該能力是一個獨立的模塊或AI,具體實現方式不詳,但確信是通過語境等輸入參數來判斷較為貼合的情感並作為提示參數或者權重反饋給其他模塊(如對話模塊的大語言模型、形象模型操作模塊)。
該能力沒有具體的體現方式。
語音識別模塊疑似也有調用該能力來判斷發言者的情緒。
玩遊戲
Neuro遊玩遊戲依賴Vedal為她編寫的專門插件,每個她可以遊玩的遊戲都有一個專門的獨立AI負責。目前有osu!、Minecraft和殺戮尖塔等等。
相比於其他獨立AI模塊,遊戲類模塊和其他模塊的AI之間通信有限且信息類型相對簡單,所以通過語言要求Neuro作出指定的遊戲操作實際上非常困難,排除她本人的意願因素外,遊戲AI是否按照她的想法執行也具有較大的偶然性。
並非實際存在的能力
儘管Neuro-sama的直播內容包括歌回。然而她實際上並不具備唱歌能力,用以唱歌的部分也並不是AI。
Neuro-sama歌回採用的是AI歌聲合成技術(Singing voice synthesis)不是歌聲轉換(SVC),與初音未來、洛天依等虛擬歌姬一致。其呈現的音樂仍是調校師的勞動成果,而非完全由AI生成。
Neuro-sama歌回的調教師是queenpb。歌回實際上的表演方式是播放queenpb調校出來的Neuro「演唱」音樂,然後Neuro的形象模型操作模塊根據音樂的節奏來對口型和運動。
這也是為什麼有的時候Neuro在唱歌的時候莫名其妙會同時發言。這並非不存在的唱歌AI被打斷。