-
进一步适当增加李云龙的语料(看下面一个bullet针对性增加)
-
确定适合Chatbot回答的问题
师部: 李云龙,告诉你个好消息,我们得到了国际苏维埃组织的援助,现在有100门九二式步兵炮协助你作战。并且给予三百个基数的弹药。你觉得怎么样?
张大彪: 团长,我们刚缴获了骑兵营,就被旅长知道了,你说旅长那边消息怎么那么灵通呢?
张大彪: 团长,为什么对别的首长你都没有那么害怕,唯独对于旅长你特别小心呢?
阿虚妹妹: Haruhi,听说你在开学时候的自我介绍很酷,我也想这么自我介绍。告诉大家如果不是有趣的人,就不要来找我!
李鲁鲁: Haruhi,你觉得阿虚是喜欢你的吗?
- 自我介绍的正确答案 (带语音)
老师: 请自我介绍一下
- 录制 魔搭+ChatGLM2版本ChatHaruhi的视频(睡觉鱼)
可以取名叫 GLM2Haruhi 比较简短一些
- 台本工具视频可以有40秒(封小洋)
MFCC+头像,和原视频上下拼接就可以。
- 新前端展示 35秒(冷子昂)
认识我的同学有可能知道我是一个比较深度的知乎用户
ChatHaruhi呢是骆驼社区的一个子项目。我们很多一手的新闻
还有很多我个人的paper reading,都是发布在知乎上面的。
然后我们逛知乎的时候,就会发现很多这样神奇的问题
比如 给李云团长捐100门九二式步兵炮,会怎么样?
又或者 李云龙刚缴获了一个骑兵营,就被旅长知道了,是谁告的密呢?
看来大家对于这些问题,还是有浓厚的兴趣的
那么,我们提供的语言模型的方案,就可以很好的解答这些问题
ChatHaruhi,本质上是一个能够从文学或者影视作品中,去抽取和建模一个虚拟人物。模仿他的性格,和过往记忆,去进行对话的一个整套方案。
显然,这样一套系统。无论是对于做游戏的公司,或者对于追求ip衍生的公司,或者对于要建立一些助理机器人的公司,都会有很大的现实意义。
事实上在我们进行这个项目的几周里,已经有不少游戏公司和其他公司,来向我们团队了解这个方案的细节和未来的计划。
有的玩ChatGPT比较久的同学可能知道,如果我给ChatGPT一个系统的prompt。他也会具有一定的角色扮演的能力。
但是这样的系统他其实会有很多问题。你会发现他对角色的认知是高度依赖于大语言模型本来的记忆的。
并且对于角色原来故事的记忆也非常模糊,很多时候回答会有非常多所谓hallucination的效果产生。并且聊天的语言风格,也会受到GPT本身的影响。
更严重的一点是,这样一个系统还是很依赖GPT的,无法迁移到更小的开源模型。
而我们做的工作,相当于在大语言模型的周围,添加了一整套的工具,使得语言模型,可以更好的执行角色扮演这个任务。
我们可以从电影或者电视剧,提取对话的文本,形成角色的知识库。
这些知识库可以保证聊天机器人 更贴近角色本身的额设定。在讨论到相关剧情时,可以给出更好的上下文提示。
更重要的是,我们这套系统,将一个更难的角色扮演问题,划归为语言风格模拟加阅读理解的问题。这个问题更适合小的模型进行学习。
在这两天的hackthon中,我们在举办方的魔搭空间,上线了ChatGLM2版本的ChatHaruhi
我们这个工作,原来是在6月份DataWhale的学习活动中,进行招募的。在那个时候我们完成了Haruhi单个角色的创建。
所有的语料也是我用了一天半的时间,从小说中抠取的。
在这次的Hackathon中,我们完成了用声纹识别的自动台本工具。
所以我们一口气把核心人物Haruhi的语料从38段,提升到了172段接近1000句话。
我们有同时支持字幕的输入和语音识别系统,比如在构建李云龙的时候,我们的台本就是语音识别得到的。
这套工具支持我们高效地创建新的人物
在Hackathon期间,我们还重构了我们的前端。现在的新webUI的前端已经支持角色的切换
同时我们这个项目还受到了凉宫春日应援团的关注,他们会和我们合作一个像瑞星小狮子一样的桌面萌宠
当然,我们背后的系统其实是不限制前端的,你原则上完全可以去对接Live2D或者更多形式的前端。
在这两天我们还尝试了使用ONNX Tensor RT对我们的搜索系统进行了加速
对于知识库的搜索,可以从原有的88毫秒一次,加速到8毫秒一次
同时我们也注意到,随着OpenAI的0613模型的更新,以及面壁开源BMTools。就在这两周,即将开启大语言模型使用工具的新一轮浪潮。
显然,魔搭社区也注意到了这一点,赛道二的第三题,显然也是针对了让语言模型学习工具这个方向。
既然这样,不管是谁在打平安,我358团一定帮帮场子。所以我们在ChatHaruhi上分支出了Chat哆啦A梦。
Chat哆啦A梦会根据大雄的需求,适时地拿出记忆面包、时光机等工具。虽然现代科技可能还不能支撑这些工具,但是我们也可以让语言模型先用起来
能够调用外部函数也意味着ChatHaruhi可以分支出更多模态的版本,可以和现实世界连接。
总的来说,我们的项目希望用大语言模型将动漫人物带到现实。
我们是一个算法研究的项目。我们阶段性的目标,是对30个动漫人物进行模拟。并形成技术报告,同时开源全部的模型和数据集。
我们并不是一个简单的原型项目,我们希望模型能够更贴合IP本身的行为,这样才能在实际生产中投入使用。
同时,我们是一个充分与开源社区互动的项目。大量的项目成员和设施,都是从不同的社区招募的。欢迎大家关注和赞助。
谢谢大家