牛**

AI核架构验证/算子开发

教育背景

电子科技大学

工学学士 电子科学与技术 2015-2019

托福; GRE; 一等奖学金;MCM/ICM 省二,M奖;

经历:光栅投射3D重建系统; Jetson TX2实时目标检测系统;

香港科技大学

硕士 集成电路设计 2019-2021

经历:FPGA人脸计数加速计算系统; Slowfast视频流识别算法,端到端爬虫及数据预标注、标注管线;CRAFT+CRNN 手写汉字识别算法开发与本地/云端部署;

关键技能

  • AI核/GPGPU架构与编程模型
  • SIMD/SIMT/Tensor/DataFlow架构
  • Pytorch Tensorflow等AI框架
  • Cuda/OpenVX/Helium编程
  • AI Benchmark
  • ESL时序模型

工作经验

鹏城实验室 技德科技

| 2月 2020 - 6月 2021

  • Atlas800集群AIPerf打榜; Atlas 300 私有云人脸识别加速、深度学习软件栈、Serverless 推理 SDK。
  • 自研uAISS Tinyml部署架构,与 Tensorflow Lite 100%延迟性能提升;支持典型Tiny算法场景落地。
  • 基于自研RISC-V硬件,参与 MLCommoms v0.5 MLPerf Tiny Submission,全球首个超低功耗AI Benchmark,发布于NIPS2021。

华为技术 海思半导体

6月 2021 - 6月 2024

  • 负责多款芯片AI核架构验证、流片验证、系统测试用例开发工作,熟悉常见AI核架构微架构及其编程模型
  • 常见大模型/AI模型在不同架构下的理论性能分析,协助前期AI核架构设计。
  • 构建Benchmark和Micro Benchmark系统,以验证AI核的SIMT Vector架构性能并进行微架构探索。
  • 熟练应用CUDA编程,实现并优化了多种常见的AI算子,有效识别瓶颈,提升计算效率和资源利用率。
  • 熟练掌握SIMD编程、Tensor Core编程,以及卷积和矩阵乘法的切分与流水线实现。
  • 开发和应用时序ESL模型,用于前期核性能评估和RTL ST测试。
  • 构造流片验证用例,用于流片后的功能性能分析、电源完整性分析和热分析。

意法半导体

| 6月 2024 - 至今

  • 负责低功耗、高能效Data Flow AI核架构的设计与编程,实现YOLO CNN高性能计算