公开课预告：智算中心 AI Scale-Up 网络技术｜益思芯科技解决方案副总裁唐杰主讲

10月起，智猩猩芯片与算力教研组全新策划推出「智猩猩智算集群公开课」，聚焦集群构建、互联网络、算力调度、存储等关键技术。

目前，「智猩猩智算集群公开课」前三期已顺利完结。腾讯专有云首席架构师方天戟、矩向科技CEO黄朝波、云脉芯联产品总监孙伟三位主讲人，分别以《智算集群技术概述》、《智算中心融合算力调度》、《智算集群网络互连技术创新应用与展望》为主题，进行了直播讲解。

11月28日19:30，「智猩猩智算集群公开课」第4期将开讲，由益思芯科技解决方案副总裁唐杰主讲，主题为《智算中心 AI Scale-Up 网络技术》。

智算集群的规模越来越大，从最初的千卡、万卡到今天的十万卡。智算集群规模飞速增长的同时，大家也开始关注如何保证超大规模的卡间高效协同，是充分发挥集群计算性能的关键。这使得人们进一步认识到，对超大规模智算集群的构建来说，智算网络已经成为与计算芯片同等甚至更重要的关键技术之一。

Scale-Out、Scale-Up是目前广受关注的两大智算网络技术。Scale-Out通过以太网或Infiniband，实现GPU之间的RDMA功能，即所谓的前端网络。Scale-Up则用于GPU之间高速互连，可以实现跨GPU的内存读写，也称后端网络。从本质上来看，Scale-Out、Scale-Up都是为了实现GPU之间内存方面的数据传输，那么二者的本质区别是什么？为什么不能将二者合而为一呢？

本次公开课，唐杰老师首先会阐述AI智算网络为何要有Scale-Up/Out之分，之后会着重讲解益思芯StarLink互联技术要解决的问题，以及StarLink实现的技术特点和在智算中心实现StarLink互联的技术路径。

公开课预告：智算中心 AI Scale-Up 网络技术｜益思芯科技解决方案副总裁唐杰主讲

公开课内容

主题：智算中心 AI Scale-Up 网络技术
提纲：
1、AI智算网络为什么要有Scale-Up/Out之分
2、StarLink互联技术要解决的问题
3、StarLink实现的技术特点
4、在智算中心实现StarLink互联的技术路径

主讲人

唐杰，益思芯科技解决方案副总裁，华东理工大学工学硕士，目前就职于益思芯科技上海有限公司，负责产品方案；主要构建以益思芯自主产权的P4为中心的数据中心虚拟网络加速加速方案，NVMe-oF 以及virtio-BLK/NVMe益思芯存储方案的设计和验证, Resnics自主开发的高速RDMA 网卡在算力网络的应用。在2022年加入益思芯之前，在FPGA厂商Xilinx主要负责数据中心的方案，积极投身软硬件结合的方案设计和推广。

直播时间

11月28日19:30-20:30

相关推荐