跳转到主要内容

法国维数(VSORA)推出支持自动驾驶LV4、LV5千兆浮点运算(PetaFlops)平台

winniewei 提交于

<p>作为一家专注于创新算法的公司,<span lang="EN-US">Vsora</span>在无线通讯领域上,积累了数十年的数字信号处理以及最新<span lang="EN-US">5G</span>蜂窝网络标准的设计经验。</p>

<p><span lang="EN-US">Vsora</span>的创新架构在于<span lang="EN-US">DSP</span>设计的程序化,其灵活的可扩展性,实现了纯软件的多核设计。在同一架构下,实现<span lang="EN-US">DSP</span>与<span lang="EN-US">AI</span>人工智能加速器的双重功能。特别适合自动驾驶产业的芯片设计与开发。</p>

<p><span lang="EN-US">AD1028</span>是一个<span lang="EN-US">IP</span>核,内嵌一个<span lang="EN-US">PetaFLOPS</span>计算平台,借助于该<span lang="EN-US">IP</span>核的高效运算能力设计的低功耗芯片<span lang="EN-US">L4 / L5</span>控制单元,极大地帮助自动驾驶行业缩短芯片设计周期。</p>

<p>在<span lang="EN-US">LV4</span>级的自动驾驶中,仍然由驾驶员操控车辆。在<span lang="EN-US">LV5</span>级中,必须实现脱离人类的全自动驾驶功能,因此实现<span lang="EN-US">LV5</span>级的自动驾驶的高速精准运算能力是相当艰巨的挑战。</p>

<p>首先,机车要学习在行驶过程中,由环境变化带来的自定行驶行为。这个过程我们称之为“感知“,这个过程需要最先进的<span lang="EN-US">DSP</span>技术来处理感应器收集的大量信息。这个流程由雷达、光达、镜头、超音波感应器组合而成,并配合全球卫星导航系统提供的数据,及沿途<span lang="EN-US">5G</span>信号和蜂窝<span lang="EN-US">V2X</span>(<span lang="EN-US">C-V2X</span>)数据。</p>

<p>例如,我们计划从<span lang="EN-US">A</span>点自动驾驶到<span lang="EN-US">B</span>点,那么就需要详细收集到两点之间的如下数据:</p>

<p><span lang="EN-US">1</span>,两点之间可能存在哪些固定和移动障碍。</p>

<p><span lang="EN-US">2</span>,应遵守的交通规则。</p>

<p><span lang="EN-US">3</span>,天气对行驶的影响。</p>

<p><span lang="EN-US">4</span>,路况对路径的影响。</p>

<p><span lang="EN-US">5</span>,其它可能影响到实际行驶路径的因素。</p>

<p>除了已收集的信息,在实际行驶中,自动驾驶系统需频繁且快速进行数据更新,以应对不可预测的突发事件。在处理收集到信息之前,必须对传感器数据进行快速过滤,以消除噪声和其它随机产生的复杂干扰信号,这就需要通过先进的<span lang="EN-US">DSP</span>算法与<span lang="EN-US">AI</span>结合运算,过滤掉不真实的信息及干扰,从而在综合多个传感器信息时,得到干净正确的数据。</p>

<p>两种最常见的传感器融合类型是使用状态估算器(如卡尔曼滤波器)和基于机器学习的融合。 卡尔曼滤波基于假设一个线性高斯系统,在实际行驶中,可能导致错误的结果。</p>

<p>一种优选的方法是通过粒子滤波器<span lang="EN-US">Particle Filter (</span>也称为顺序蒙特卡罗<span lang="EN-US">SMC</span>方法<span lang="EN-US">)</span>建模非线性系统和非高斯状态分布。 而<span lang="EN-US">PF</span>也可以用于物体跟踪,运动规划和路面评估。</p>

<p>在规划阶段,在运行感知过程中收集并预处里的干净数据,此时人工智能及深层神经网络(<span lang="EN-US">DNN</span>)开始介入数据处理并输出相应指令。</p>

<p><span lang="EN-US">VSORA</span>设计了一种使<span lang="EN-US">DSP</span>和<span lang="EN-US">DNN</span>加速通过共享的高带宽片上存储器交换数据的计算配置,允许在感知阶段即并行启动信号处理和<span lang="EN-US">AI</span>算法,规划阶段即可采集到有效数据并同步处理,藉此把系统延迟降到最低。</p>

<p>该配置消除了因受数据传输带宽限制引起的与外部存储器交互的性能瓶颈,通过大幅缩短数据到内存的时间来减少延迟并降低功耗。</p>

<p><span lang="EN-US">AD1028</span>可以同时处理两种类型任意组合传感器的融合,包括融合信号处理时的混合融合以及<span lang="EN-US">AI</span>功能。 例如镜头与激光雷达或雷达之间的融合。</p>

<p><span lang="EN-US">AD1028</span>的计算能力达到<span lang="EN-US">1028TeraFLOPS(</span>千兆浮点运算<span lang="EN-US">),<span>&nbsp; </span></span>运行频率为<span lang="EN-US">2GHz</span>。在<span lang="EN-US">Yolo-v3</span>上处理<span lang="EN-US">800</span>万像素的图像仅需<span lang="EN-US">7ms,<span>&nbsp; </span></span>处理高解析图像不超过<span lang="EN-US">1.6ms. AD1028</span>支持所有类型传感器运算,可并行组合也可串行组合。研发人员可以无需更改算法,自行配置信号处理和<span lang="EN-US">AI</span>运算的处理架构</p>

<p><span lang="EN-US">2019</span>年,三菱电气研究实验室发布了一篇论文,详细介绍一个<span lang="EN-US">PF</span>实现,该试验使用<span lang="EN-US">500</span>个粒子,共耗时<span lang="EN-US">5ms</span>执行完任务。 相比之下,<span lang="EN-US">VSORA AD1028</span>处理的<span lang="EN-US">PF</span>包含<span lang="EN-US">1600</span>万个粒子,在不到<span lang="EN-US">8ms</span>的时间完成。</p>

<p>在<span lang="EN-US">AD1028</span>平台上开发,业者可使用通用的<span lang="EN-US">Matlab</span>、<span lang="EN-US">Tensorflow</span>和<span lang="EN-US">C++</span>高级语言完成。这让用户能够迅速进入<span lang="EN-US">LV4</span>和<span lang="EN-US">LV5</span>的研发,无需复杂的低级汇编语言或靠硬件连接加速器去开发。</p>

<p>同时,现有解决方案也可以轻松升级到未来更高级的功能需求。</p>

<p><span lang="EN-US">AD1028</span>采用<span lang="EN-US">7</span>纳米工艺技术,逻辑面积为<span lang="EN-US">35mm2</span>,消耗小于<span lang="EN-US">35</span>瓦。</p>

<p><span lang="EN-US">AD1028</span>是<span lang="EN-US">VSORA</span>系列产品中第一款具有多种处理能力的产品。 系列产品中<span lang="EN-US">AD514</span>具有<span lang="EN-US">514TFLOPS</span>运算能力,<span lang="EN-US">AD2056</span>具有<span lang="EN-US">2056TFLOPS</span>运算能力。 这两个产品都将在年底前发布。</p>