AI开源项目包大全-开源云原生一站式机器学习/深度学习/大模型AI平台
作者:微信文章Cube Studio 是一个开源的云原生一站式机器学习/深度学习/大模型 AI 平台,覆盖从开发、训练到推理、应用的全链路(!!!下载链接见文末!!!)。
以下是其核心功能和技术支持:
核心功能
一站式开发与管理
支持 SSO 登录、多租户管理。
提供 Notebook 在线开发环境(JupyterLab/VSCode),支持多种语言。
拖拉拽任务流 Pipeline 编排,支持分布式训练。
模型训练与优化
支持多机多卡分布式训练,兼容 PyTorch、TensorFlow、MXNet、PaddlePaddle 等主流框架。
集成超参搜索工具(如 NNI、Ray),支持 VGPU 推理服务。
大模型支持
提供 AIHub 模型市场,支持 40+ 开源大模型一键部署和微调。
支持 LLMOps(大模型开发运维一体化),涵盖大模型的开发、部署和优化。
数据管理与标注
集成数据标注平台,支持自动化标注。
提供数据集管理、ETL 编排和数据地图功能。
部署与运维
支持私有化部署、边缘集群部署和 Serverless 集群模式。
集成监控和推送功能,支持多集群资源管理。
技术支持
硬件兼容:支持国产 CPU/GPU/NPU 芯片,兼容 RDMA 网络协议。
框架支持:支持 PyTorch、TensorFlow、MXNet、DeepSpeed、Horovod、Spark、Ray 等。
最新版本功能优化:
添加和优化Jupyter、VSCode支持,包括SSH服务能力和本地显示Matplotlib。
升级基础镜像,支持华为910、ARM64、NVCC版本GPU镜像和devel版本CUDA镜像,更新英伟达基础镜像。
优化GPT地址配置兼容性,代码中镜像域名不写死,避免内网拉取不到镜像的问题。
增加和优化ARM64镜像,增加gamma角色权限,优化用户权限界面和操作权限。
修正部署问题,密码修正为密文存储,优化初始化过程,修正挂载和代理IP问题。
优化和完善文档,包括中英文翻译和帮助文档位置更新。
支持JSON类型输入,pipeline编排任务参数支持提示信息(tip)。
数据集模块优化,包括跳转到Notebook上传和模板升级。
修复前端显示问题,包括详情页面缩进、表格显示、部分搜索列表不显示中文等问题。
增加LDAP单点登录和安全登录,完善安全扫描。
视频跟踪自动化标注,优化多目标跟踪模型,增加YOLO跟踪AIHub应用和示例。
在线VSCode增加SSH服务能力,IDE SSH远程自动Python。
更新和优化镜像源、仓库账号和拉取秘钥,设置镜像拉取策略环境变量。
新增和优化多分类模型支持,包括LightGBM、KNN、GBDT、决策树、XGBoost、Adaboost和LR的多分类及离线推理结果概率列名转换。
AIHub部署支持配置项目组,增加独立应用构建镜像和任务模板。
优化和删除冗余代码,去除非必要文件,减少日志打印。
升级流量代理认证和计量计费账单功能,优化账单ID生成策略。
修正自动化标注模型地址和部分体验问题,更新pandas版本。
支持语种识别模型和语音分类模型,AIHub在线开发。
推理服务和Notebook支持GPU显存单独设置,升级VGPU监控。
优雅化代码,升级Istio部署,修改Grafana默认主题。
修正项目成员代码位置、镜像名、Torch-Server模型发布文件名和模型名不支持的问题。
服务发布需要先清理,升级推理服务镜像,更新TFServing的推理服务。
完善YOLOv8任务模板和示例,支持构建成AIHub应用。
Pipeline复制不保留实例信息,修正超参搜索算法可取值的问题。
更换ChatGPT Token,数据写入前增加JSON校验,更新脚本。
Notebook不显示Node Selector,完善标注导入任务模板。
内部服务支持定义首页路径,添加标注数据导入任务模板。
修复部署显示问题,修正算子打开目录时的部分Bug,Pipeline算子支持镜像调试。
示例Pipeline不允许修改,处理图标网站域名访问受限的问题。
修正数据智能中的提示信息和记忆上次会话内容,修正激活包和初始化工作目录。
增加激活码,支持菜单权限控制,更新Label Studio镜像版本。
聊天会话私有会话增加提示词构建,移动ChatWeb构建后的目录地址。
标注系统自动化标注接口添加服务内部名称,新版本标注系统对接Bug修复。
删除一些不能识别的图片,只保留一个目标识别自动化接口,优化部分代码。
----下载地址见文末----
总体框架
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hOHibQwV0iaBia9fXRjwKdxtGlE1uYaicxqvu7043TTvYfEia3SibrIoIUD9YQ/640?wx_fmt=png&from=appmsg
功能清单
cube studio是开源一站式云原生机器学习平台,目前主要包含
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hOsW9ib7xHhgwhR0yynGKqCLlcCIjAf7BWtfjVBw6IV26mHnGFViaX1WYQ/640?wx_fmt=png&from=appmsg
支持模板
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hOcrclsibJGr3OU8jgtAUY8dZvIxkfvKxIF8oANMXljBmSYLrCehlpIHA/640?wx_fmt=png&from=appmsg
多集群管控
cube支持多集群调度,可同时管控多个训练或推理集群。在单个集群内,不仅能做到一个项目组内对在线开发、训练、推理的隔离,还可以做到一个k8s集群下多个项目组算力的隔离。另外在不同项目组下的算力间具有动态均衡的能力,能够在多项目间共享公共算力池和私有化算力池,做到成本最低化。
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hOjoic3olG1wict6D4pn69CCLfEXVsyTiadDEibicQbgzE7bMdLic1BmbFt9uw/640?wx_fmt=png&from=appmsg
分布式存储
cube会自动为用户挂载用户的个人目录,同一个用户在平台任何地方启动的容器,其用户个人子目录均为/mnt/$username。可以将pvc/hostpath/memory/configmap等挂载成容器目录。同时可以在项目组中配置项目组的默认挂载,进而实现一个项目组共享同一个目录等功能。
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hOmYDlfA2ll2gLFFFnMeAG876xlnpNJxbicJiaZwmY8bo8osFAskkzrUrA/640?wx_fmt=png&from=appmsg
在线开发
系统多租户/多实例管理,在线交互开发调试,无需安装三方控件,只需浏览器就能完成开发。支持vscode,jupyter,Matlab,Rstudio等多种在线IDE类型Jupyter支持cube-studio sdk,Julia,R,python,pyspark多内核版本,
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hOghGFUXZVhgFkicMVK8c7EknI8ONACP4p6BibyUlXXrc8iavakXATly3lg/640?wx_fmt=png&from=appmsg
支持c++,java,conda等多种开发语言,以及tensorboard/git/gpu监控等多种插件支持ssh remote与notebook互通,本地进行代码开发在线镜像构建,通过Web Shell方式在浏览器中完成构建;并提供各种版本notebook,inference,gpu,python等基础镜像
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hOFnPrvNA7XRaVMia2YtLRa49Qrz88LhlAN2nibO98iclpwRKguggyVBrtQ/640?wx_fmt=png&from=appmsg
标注平台:
支持图/文/音/多模态/大模型多种类型标注功能,用户管理,工作任务分发对接aihub模型市场,支持自动化标注;对接数据集,支持标注数据导入;对接pipeline,支持标注结果自动化训练
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hOZjPckYVaq2MSTehJN2ZM19jEn2Vibpo3Ncicy8BIbfTbagF7d4ibYsWVQ/640?wx_fmt=png&from=appmsg
拖拉拽pipeline编排
1、Ml全流程
数据导入,数据预处理,超惨搜索,模型训练,模型评估,模型压缩,模型注册,服务上线,ml算法全流程
2、灵活开放
支持单任务调试、分布式任务日志聚合查看,pipeline调试跟踪,任务运行资源监控,以及定时调度功能(包含补录,忽略,重试,依赖,并发限制,过期淘汰等功能)
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hO3QATHYtADlWA9NSRsUicNzp8AhCkPGmGNCSzUDy7Qw05LSLNeMp8COQ/640?wx_fmt=png&from=appmsg
分布式框架
1、训练框架支持分布式(协议和策略)
2、代码识别分布式角色(有状态)
3、控制器部署分布式训练集群(operator)
4、配置分布式训练集群的部署(CRD)
多层次多类型算子
以k8s为核心,
1、支持tf分布式训练、pytorch分布式训练、spark分布式数据处理、ray分布式超参搜索、mpi分布式训练、horovod分布式训练、nni分布式超参搜索、mxnet分布式训练、volcano分布式数据处理、kaldi分布式语音训练等,
2、 以及在此衍生出来的分布式的数据下载,hdfs拉取,cos上传下载,视频采帧,音频抽取,分布式的训练,例如推荐场景的din算法,ComiRec算法,MMoE算法,DeepFM算法,youtube dnn算法,ple模型,ESMM模型,双塔模型,音视频的wenet,containAI等算法的分布式训练。
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hORiccW8sZ74GJoibmHhQmOpFLM6lAVOibyRdH2gLMETbvicFD1TUfMMbhHA/640?wx_fmt=png&from=appmsg
功能模板化
和非模板开发相比,使用模板建立应用成本会更低一些,无需开发平台。迁移更加容易,通过模板标准化后,后续应用迁移迭代只需迁移配置模板,简化复杂的配置操作。配置复用,通过简单的配置就可以复用这些能力,算法与工程分离避免重复开发。
为了避免重复开发,对pipeline中的task功能进行模板化开发。平台开发者或用户可自行开发模板镜像,将镜像注册到平台,这样其他用户就可以复用这些功能。平台自带模板在job-template目录下
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hOlibGm6Tsr3J691EMVyc2spFpF1l9WxcCwI0NxA46o9iau1JFHXqIB6ibA/640?wx_fmt=png&from=appmsg
流水线调试
Pipeline调试支持定时执行,支持,补录,并发限制,超时,实例依赖等。Pipeling运行,支持变量在任务间输入输出,全局变量,流向控制,模板变量,数据时间等Pipeling运行,支持任务结果可视化,图片、csv/json,echart源码可视化
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hOgjhxMNaRgVYr3BDQGAthuIScTAHPZ7xUhNJa8Z75D8aIbwic9aMjviaw/640?wx_fmt=png&from=appmsg
推理服务
0代码发布推理服务从底层到上层,包含服务网格,serverless,pipeline,http框架,模型计算。
服务网格阶段:主要工作是代理流量的中转和管控,例如分流,镜像,限流,黑白名单之类的。
serverless阶段:主要为服务的智能化运维,例如服务的激活,伸缩容,版本管理,蓝绿发布。
pipeline阶段:主要为请求在各数据处理/推理之间的流动。推理的前后置处理逻辑等。
http/grpc框架:主要为处理客户端的请求,准备推理样本,推理后作出响应。
模型计算:模型在cpu/gpu上对输入样本做前向计算。
主要功能:
支持模型管理注册,灰度发布,版本回退,模型指标可视化,以及在piepline中进行模型注册推理服务支持多集群,多资源组,异构gpu环境,平台资源统筹监控,VGPU,服务流量分流,复制,sidecar支持0代码的模型发布,gpu推理加速,支持训练推理混部,服务优先级,自定义指标弹性伸缩。
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hO3U7KfpeH6ImW0XWpfSD2sBLWKvMfZWhkYNlcLyxl6FUuiaupcZiaBUhA/640?wx_fmt=png&from=appmsg
AIHub
系统自带通用模型数量400+,覆盖绝大数行业场景,根据需求可以不断扩充。模型开源、按需定制,方便快速集成,满足用户业务增长及二次开发升级。模型标准化开发管理,大幅降低使用门槛,开发周期时长平均下降30%以上。
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hO27jSvEEBNAkp7b43dFqTdDVHLKMCI2q6322ntVQqr9VXL08MiaQsT5A/640?wx_fmt=png&from=appmsg
AIHub模型可一键部署为WEB端应用,手机端/PC端皆可,实时查看模型应用效果点击模型开发即可进入notebook进行模型代码的二次开发,实现一键开发点击训练即可加入自己的数据进行一键微调,使模型更贴合自身场景
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hO8C4OplsqgJ5jDkpxPvbib6ERUwFsqLiavG2zdgUvp9VqZrDls6SlCAlQ/640?wx_fmt=png&from=appmsg
GPT训练微调
cube-studio支持deepspeed/colossalai等分布式加速框架,可一键实现大模型多机多卡分布式训练AIHub包含gpt/AIGC大模型,可一键转为微调pipeline,修改为自己的数据后,便可以微调并部署
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hOdiaX84Ig7oMJgUFocXWJDhzZpEOEzMykjU0YndY2AnO8iba9FmBLBAnQ/640?wx_fmt=png&from=appmsg
GPT私有知识库
数据智能模块可配置专业领域智能对话,快速敏捷使用llm可为某个聊天场景配置私有知识库文件,支持主题分割,语义embedding,意图识别,概要提取,多路召回,排序,多种功能融合
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hOlPJFsXFmW6G3dicsaBkHUJhF9LH9LJgR1eLhmv0hIpyzLjSe7enoIicg/640?wx_fmt=png&from=appmsg
GPT智能聊天
可以将智能会话与AIHub相结合,例如下面AIGC模型与聊天会话可使用Autogpt方式串联所有aihub模型,进行图文音智能化处理智能会话与公共直接打通,可在微信公众号中进行图文音对话
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hO9yEYbtfdribhQraTmVez6BHjJibiaY9QMPwPNFn9GPB2ljdSeTibFQLuHQ/640?wx_fmt=png&from=appmsg
三种方式部署
针对企业需求,根据不同场景对计算实时性的不同需求,可以提供三种建设模式
模式一:私有化部署——对数据安全要求高、预算充足、自己有开发能力
模式二:边缘集群部署——算力分散,多个子网环境的场景,或边缘设备场景
模式三:serverless集群——成本有限,按需申请算力的场景
程序目录结构
https://mmbiz.qpic.cn/sz_mmbiz_png/35sHic3iaJ0zAj66FvMLauyswCdNDEU8hOia2Z0ibnKNUqq7PQSeNPktJplQNJ4fuuCIA8rfZe9GX3PFxQ38TVmc6Q/640?wx_fmt=png&from=appmsg
下载地址:回复【20250124】获得整理好的程序代码包
开源地址:https://github.com/tencentmusic/cube-studio
页:
[1]