MiraiForum

Mitr-yuzr

@南栀沁寒

@Mitr-yuzr 在 [Mirai-NLP] GPT2-Chinese模型训练教程中说：

@dream 这就是部署和接入部分了，可以肯定是可以的，你可以参考这篇帖子。

如果想接入chatlearning的话可能比较困难，你可以问一下chatlearning的开发者有没有提供相关接口。

关于部署，这一部分我也不确定我会不会做教程，毕竟本地推理的话估计比较废时间，而且gpt2模型只能做到文本生成和评估，在bot上应该没有应用场景。后续做对话模型的话参考大佬的文章也有教程。

Mitr-yuzr

@cssxsh 若使用NLPHelper收集数据，emoji表情会自动被替换成空格。如果使用其他插件收集数据的话可以参考 使用Python对Json格式的数据进行二次处理为GPT2所需格式 这一部分，自己完成emoji的替换。

Mitr-yuzr

@RainChan 之前出了一点小问题，数据被模型自带的长度过滤给过滤掉了，可能需要重新跑一下（）

Mitr-yuzr

@Samarium150 之前出了一点小问题，数据被模型自带的长度过滤给过滤掉了，可能需要重新跑一下（）

Mitr-yuzr

@南栀沁寒数据长度限制忘记调了（
现在修改了一下，再试试？

Mitr-yuzr

@RainChan 不记得了，我是上上个月跑的（）

Mitr-yuzr

@dream 这就是部署和接入部分了，可以肯定是可以的，你可以参考这篇帖子。

如果想接入chatlearning的话可能比较困难，你可以问一下chatlearning的开发者有没有提供相关接口。

Mitr-yuzr

@RainChan 我1080跑两千条数据24个epochs大概要跑三个小时，确实难绷

Mitr-yuzr

@dream 这你需要询问chatlearning的开发者是否提供了导出聊天数据的方式

Mitr-yuzr

GPT2-Chinese训练教程已更新:
[Mirai-NLP] GPT2-Chinese模型训练教程

Mitr-yuzr

GPT2-Chinese训练教程已更新:
[Mirai-NLP] GPT2-Chinese模型训练教程

Mitr-yuzr

蛋疼的排版

Mitr-yuzr

Mirai-NLP > GPT2-Chinese

Mirai-NLP Github Project

前言

作为Mirai-NLP系列教程的第一章，本教程将会手把手教你从头开始训练一个基于GPT2-Chinese语言模型并进行文本生成。

本系列教程以及衍生插件均起源于关于将QQ机器人与深度学习NLP结合的可能性一帖，在这里对参与讨论和关注后续的各位表示感谢。没有你们的支持，我的寒假和国庆假期就不会这么充实。

本帖全部内容已经过作者验证，笔记本的内容也经过了封装，用户不需要接触到代码，只需输入参数即可进行训练和生成。

训练过程中如果出现问题可以回复或私聊，同时也非常欢迎各位在帖子下方分享自己的训练成果。

声明

仅供学习用途，禁止用于任何违反法律法规和社区规定的行为，禁止用于商业行为。

需要

一台可以科学上网的电脑
可以使用Google Drive的Google账号
一个可以用于收集训练数据的QQBot
一点点动手能力

教程

数据准备

请为你的QQBot安装用于收集数据的NLP插件：

NLPHelper - 自然语言处理模型训练数据采集专用插件

或者如果你已经在使用Mirai Hibernate Plugin，则可以使用此插件：

Mirai Hibernate NLP，用于将聊天记录导出为 NLP 所需数据的插件

相关插件的使用方法均在对应帖内有说明，本教程中不再介绍。

使用Python对Json格式的数据进行二次处理为GPT2所需格式

使用插件内置的导出数据有时无法满足我们想要的功能，这时可以导出Json格式的数据，并使用Python对数据进行二次处理为GPT2所需格式。

本教程中只介绍此方法的可行性，不详细讲解，下面给出一个例子，可用于针对 123456 的内容过滤。

import json
import ijson

if __name__ == "__main__":
    with open('data.json', 'r', encoding='utf-8') as f:
        objects = ijson.items(f, 'item')
        new = []
        while True:
            try:
                i = objects.__next__()
                if i['size'] <= 100 and (i['sender']!=123456 or not "*龙门粗口*" in i['content']) :
                    new.append(i['content'])
            except StopIteration as e:
                print("数据过滤完成, 共" + str(len(new)) + "条符合要求的数据")
                break
    with open('train.json', 'w', encoding='utf-8') as f:
        json.dump(new, f, ensure_ascii=False)

初始化笔记本

打开本项目的Colab笔记本
在右上角登录你的 Google 账号
首先点击右上角的连接，等待分配完成和初始化
在上方菜单栏中选择代码执行程序，在倒数第三项找到更改运行时类型，在硬件加速器中选择 GPU，等待分配完成
按照笔记本提示进行初始化、训练和生成

初始化源码、模型等

在全局变量单元格输入模型的名字，然后点击旁边的运行按钮
如果弹出安全提示则选择仍然运行
依次运行初始化单元格下的单元格
- 挂载Google Drive
  
  选择你的 Google 账号
  
  滑到最下方，允许
  
  挂载成功后，可以看到左侧目录里已经出现了我们的GDrive文件夹
- 下载源代码
  耗时可能比较久，我这里测试的是约五十秒。下载好后大约如下：
- 下载预训练模型
  这里使用的是hhou435大佬提供的通用中文小模型。
  你可以前往此处下载其他模型 (散文、诗词、对联、歌词、文言文等)，并自行上传到drive/MyDrive/your_model_name/文件夹下。
  若为二次训练 (即已经在GDrive中有训练过的模型)，则无需运行此单元格。
  下载好后可以看到在我们的GDrive挂载目录下出现了预训练模型（共三个文件）
- 上传数据
  运行后会在日志出现选择文件按钮，点击并选择导出的数据会自动上传到正确位置并重命名。
  若文件较大则速度会比较慢，耐心等待即可。