InternEvo
  • 环境安装
  • 使用教程
  • 训练初始化
  • 启动训练脚本
  • 并行模式与原理
  • 数据加载与流程
  • 混合精度训练
  • 混合专家模型
  • 模型加载与保存
  • 性能分析工具
  • 监控和告警
  • 训练样例介绍
  • 问&答
InternEvo
  • InternEvo
  • 在 GitHub 上编辑

InternEvo

环境构建

  • 环境安装
    • 环境准备
    • pip方式安装
    • 源码方式安装
    • 环境镜像
    • NPU环境安装

快速上手

  • 使用教程
    • 安装
    • 数据准备
    • 训练配置
    • 启动训练
    • 运行结果
    • 加载训练的checkpoint并生成
    • 长文本生成

训练构建

  • 训练初始化
    • 命令行参数解析
    • 模型初始化
    • 数据加载器初始化
    • 并行通信初始化
    • 优化器初始化
    • Trainer 初始化
  • 启动训练脚本
    • 配置参数解析
    • 初始化过程
    • 启动训练过程

并行训练

  • 并行模式与原理
    • 张量并行
    • 流水线并行
    • 数据并行
    • ZeRO1.5
    • 2D-Attention

数据格式

  • 数据加载与流程
    • Dataloader加载数据
    • 获取Dataloader数据
    • Forward过程数据格式

混合精度

  • 混合精度训练
    • 实现说明
    • TF32训练

混合专家模型

  • 混合专家模型
    • 参数配置
    • 模型训练

模型备份

  • 模型加载与保存
    • CheckpointManager
    • 加载与存储格式约定
    • 异步上传
    • 快照检查点
    • 检查点自动恢复
    • 手动控制检查点存储

性能分析

  • 性能分析工具
    • Torch Profiler
    • Memory Profiler

训练监控

  • 监控和告警
    • 监控
    • 告警
    • 轻量监控

训练样例

  • 训练样例介绍
    • 7B Demo
    • 20B Demo

常见问题

  • 问&答

索引和表格

  • 索引

  • 模块索引

  • 搜索页面

下一页

© 版权所有 2023, InternEvo Team。

利用 Sphinx 构建,使用的 主题 由 Read the Docs 开发.