python-code-anls/docs/ChatHaruhi/notebook----讲稿.md at master · OpenDocCN/python-code-anls

TODO

进一步适当增加李云龙的语料（看下面一个bullet针对性增加）
确定适合Chatbot回答的问题

师部: 李云龙，告诉你个好消息，我们得到了国际苏维埃组织的援助，现在有100门九二式步兵炮协助你作战。并且给予三百个基数的弹药。你觉得怎么样？

张大彪: 团长，我们刚缴获了骑兵营，就被旅长知道了，你说旅长那边消息怎么那么灵通呢？

张大彪: 团长，为什么对别的首长你都没有那么害怕，唯独对于旅长你特别小心呢？

阿虚妹妹: Haruhi，听说你在开学时候的自我介绍很酷，我也想这么自我介绍。告诉大家如果不是有趣的人，就不要来找我！

李鲁鲁: Haruhi，你觉得阿虚是喜欢你的吗？

自我介绍的正确答案（带语音）

老师: 请自我介绍一下

录制魔搭+ChatGLM2版本ChatHaruhi的视频（睡觉鱼）

可以取名叫 GLM2Haruhi 比较简短一些

台本工具视频可以有40秒（封小洋）

MFCC+头像，和原视频上下拼接就可以。

新前端展示 35秒（冷子昂）

讲稿

认识我的同学有可能知道我是一个比较深度的知乎用户

ChatHaruhi呢是骆驼社区的一个子项目。我们很多一手的新闻

还有很多我个人的paper reading，都是发布在知乎上面的。

然后我们逛知乎的时候，就会发现很多这样神奇的问题

比如给李云团长捐100门九二式步兵炮，会怎么样？

又或者李云龙刚缴获了一个骑兵营，就被旅长知道了，是谁告的密呢？

看来大家对于这些问题，还是有浓厚的兴趣的

那么，我们提供的语言模型的方案，就可以很好的解答这些问题

ChatHaruhi，本质上是一个能够从文学或者影视作品中，去抽取和建模一个虚拟人物。模仿他的性格，和过往记忆，去进行对话的一个整套方案。

显然，这样一套系统。无论是对于做游戏的公司，或者对于追求ip衍生的公司，或者对于要建立一些助理机器人的公司，都会有很大的现实意义。

事实上在我们进行这个项目的几周里，已经有不少游戏公司和其他公司，来向我们团队了解这个方案的细节和未来的计划。

有的玩ChatGPT比较久的同学可能知道，如果我给ChatGPT一个系统的prompt。他也会具有一定的角色扮演的能力。

但是这样的系统他其实会有很多问题。你会发现他对角色的认知是高度依赖于大语言模型本来的记忆的。

并且对于角色原来故事的记忆也非常模糊，很多时候回答会有非常多所谓hallucination的效果产生。并且聊天的语言风格，也会受到GPT本身的影响。

更严重的一点是，这样一个系统还是很依赖GPT的，无法迁移到更小的开源模型。

而我们做的工作，相当于在大语言模型的周围，添加了一整套的工具，使得语言模型，可以更好的执行角色扮演这个任务。

我们可以从电影或者电视剧，提取对话的文本，形成角色的知识库。

这些知识库可以保证聊天机器人更贴近角色本身的额设定。在讨论到相关剧情时，可以给出更好的上下文提示。

更重要的是，我们这套系统，将一个更难的角色扮演问题，划归为语言风格模拟加阅读理解的问题。这个问题更适合小的模型进行学习。

在这两天的hackthon中，我们在举办方的魔搭空间，上线了ChatGLM2版本的ChatHaruhi

我们这个工作，原来是在6月份DataWhale的学习活动中，进行招募的。在那个时候我们完成了Haruhi单个角色的创建。

所有的语料也是我用了一天半的时间，从小说中抠取的。

在这次的Hackathon中，我们完成了用声纹识别的自动台本工具。

所以我们一口气把核心人物Haruhi的语料从38段，提升到了172段接近1000句话。

我们有同时支持字幕的输入和语音识别系统，比如在构建李云龙的时候，我们的台本就是语音识别得到的。

这套工具支持我们高效地创建新的人物

在Hackathon期间，我们还重构了我们的前端。现在的新webUI的前端已经支持角色的切换

同时我们这个项目还受到了凉宫春日应援团的关注，他们会和我们合作一个像瑞星小狮子一样的桌面萌宠

当然，我们背后的系统其实是不限制前端的，你原则上完全可以去对接Live2D或者更多形式的前端。

在这两天我们还尝试了使用ONNX Tensor RT对我们的搜索系统进行了加速

对于知识库的搜索，可以从原有的88毫秒一次，加速到8毫秒一次

同时我们也注意到，随着OpenAI的0613模型的更新，以及面壁开源BMTools。就在这两周，即将开启大语言模型使用工具的新一轮浪潮。

显然，魔搭社区也注意到了这一点，赛道二的第三题，显然也是针对了让语言模型学习工具这个方向。

既然这样，不管是谁在打平安,我358团一定帮帮场子。所以我们在ChatHaruhi上分支出了Chat哆啦A梦。

Chat哆啦A梦会根据大雄的需求，适时地拿出记忆面包、时光机等工具。虽然现代科技可能还不能支撑这些工具，但是我们也可以让语言模型先用起来

能够调用外部函数也意味着ChatHaruhi可以分支出更多模态的版本，可以和现实世界连接。

总的来说，我们的项目希望用大语言模型将动漫人物带到现实。

我们是一个算法研究的项目。我们阶段性的目标，是对30个动漫人物进行模拟。并形成技术报告，同时开源全部的模型和数据集。

我们并不是一个简单的原型项目，我们希望模型能够更贴合IP本身的行为，这样才能在实际生产中投入使用。

同时，我们是一个充分与开源社区互动的项目。大量的项目成员和设施，都是从不同的社区招募的。欢迎大家关注和赞助。

谢谢大家

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

TODO

讲稿

FilesExpand file tree

notebook----讲稿.md

Latest commit

History

notebook----讲稿.md

File metadata and controls

TODO

讲稿