点击右上角
微信好友
朋友圈

请使用浏览器分享功能进行分享

【网络强国·百人谈】
前段时间,Starcloud-1卫星载着GPU进入太空,以测试地球观测图像分析与大语言模型推理任务,被业界视为“大模型上天”的重要一步。
在我国,“太空算力”领域早已起步。今年5月,“三体计算星座”迈入组网实施阶段,为天地一体化智能计算网络按下“加速键”。其中,中国科学院计算技术研究所、武汉大学、北京邮电大学等高校机构不断探索。
“太空算力”有多重要?面临哪些技术难题?太空AI发展前景如何?近日,我们采访了中科天算战略发展部部长李泓辛。

中科天算战略发展部部长 李泓辛
光明网:对于“太空计算”和“太空数据中心”的概念,怎么理解?
李泓辛:“太空算力”和“太空数据中心”与地面上现有的相应事物在本质上是类似的。我们相信,存在“天数、天网、天算”这一逻辑链条—-未来天上有越来越多的数据。比如,卫星遥感、雷达等产生多种数据;同时,星间互联网等组成“天网”,数据能够在太空中自由流动、实时传输;如何计算这些数据并提炼价值,就是“天算”(即在轨算力节点和太空数据中心)需要完成的工作。
在地面上,为了处理电脑、手机等产生的互联网数据,就诞生了服务器、数据中心、云计算平台、超算中心等,各层级算力通过网络连接成千上万台机器,形成集群算力、云算力、算力网络。
类似的太空中的算力将愈加成为重要基础设施,并将成为卫星高带宽网络的重要组成部分。未来,地面互联网中的部分数据,也会在太空中完成传输和计算。
我们相信,未来的算力体系不会只发生在地面,太空算力将成为其中重要的组成部分,并希望让太空计算真正改变我们的生活。我们团队长期致力于使用国产芯片打造太空数据中心,对于“超算上天”和“Al for Space”核心技术,团队历经多年攻关,突破了天基跨层协同容错技术、大热流密度器件散热技术等关键技术,自主研发了极光系列天基智能机,并提出“天算计划”,目标是希望到2030年,实现万卡超算中心部署于太阳同步轨道。
光明网:建设“太空数据中心”,有哪些重要意义?
李泓辛:太空相对于地面有两方面优势:一方面,随着卫星宽带网络的建成,太空将有大量的数据,在更靠近数据产生的地方进行计算,可以大幅降低传输带来的带宽压力,提高时效性。
应急救援、遥感监测等场景要求快速响应。地面处理往往要经历数据传输、分析处理、结果分发等步骤,过程可能需要数分钟到数小时。在轨算力可以在毫秒至秒级完成分析并直接触发动作,提高任务的一致性和响应速度。卫星产生的图像与遥感数据量巨大,在轨处理可以做到“数据就地筛选、就地压缩、就地判断”,把价值高的数据传回地面,极大降低数据传输压力。
另一方面,太空有能源优势,可以降低数据中心建设成本。
虽然在太空建设数据中心的成本目前比较高,但太空太阳能充足、稳定,可为算力提供长期、可预期的能源,且比地面上的能源利用效率高很多;同时,太空低温环境便于散热,可以节省大量制冷开销。地面数据中心还需要土地、建筑、水费、电费等成本。“太空数据中心”的主要成本是发射成本,随着发射成本的降低和运力的提升,未来存在某个时间节点,太空数据中心的成本会低于地面数据中心。
更重要的是,建设“太空数据中心”对于抢占未来科技制高点和数字生态的话语权具有战略性意义。
光明网:数据中心部署在太空,并要保障长时间稳定运行,面临哪些技术挑战,如何克服?
李泓辛:“超算上天”真正的工程难题,不在于发射本身,而在于如何让系统在太空极端环境中“长时间稳定地运行”。其中,最核心的两个挑战是“容错”和“散热”。
对于“容错”,在太空环境下,人类需要穿着宇航服来使自身免于极端条件影响,类似太空辐射环境等因素,会对算力芯片造成远高于地面的干扰,使传统服务器在地面出现的软错误、存储翻转发生率提高。同时,太空中的设备难以人工维修,一旦系统死锁、固件损坏或关键模块失效,就可能直接导致整套算力不可恢复,或整颗卫星报废,这意味着在轨算力系统须具备强自主性和自愈能力,在部分损坏的情况下不影响整体系统。为了解决这一问题,我们通过软硬件协同构建了系统级容错架构,保障系统即使在部分故障的情况下也能自动恢复,使基于商用芯片构建的算力系统,在轨具备接近航天级的可靠性。
“散热”,也是高算力“上天”面临的重要难题之一。太空是真空环境,没有空气对流,高性能芯片产生的热量只能依靠“传导+辐射”的路径排出。超算设施使用的芯片是大功率器件,并且芯片面积小、热流密度高,如何及时导出成为关键问题——高算力节点在真空中容易形成局部热岛,如果热量不能及时导出,不仅会触发频繁降频,甚至可能造成永久损伤。对此,我们设计了主、被动结合的散热方案,通过泵驱流体回路,即“液冷”形式,解决高热流密度器件的散热问题。
光明网:在太空环境中部署AI算力设施,如何保障数据安全?
李泓辛:在太空这一极端且无人看守的环境下,卫星和在轨算力节点的安全性非常敏感和重要,任何安全漏洞都可能产生成倍的风险。
首先,核心计算器件要做到全国产化,保障器件本身自主可控。其次,为了保护数据不被窃取或篡改,要对重要的数据进行加密,包括通信加密与身份验证等技术,使数据即使被拦截捕获也无法“看懂”。
为此,我们正在开发一套芯片系统,可以保证卫星的算力系统在“可信、不可被篡改”的状态下运行——卫星每次开机、加载软件、运行算法之前,都必须通过它的验证,而任何未经授权的软件、指令或更新,都不会被放行。
光明网:当前,AI(含视觉大语言模型等)在太空部署算力或数据中心的实际应用发展到了什么阶段,还有哪些发展方向?
李泓辛:随着视觉大语言模型(VLLM)在卫星上实现轻量化部署,太空算力已经从“概念阶段”走向了“可用阶段”。AI算力“上天”主要有两个方向:一是巨型星座自主管理,要知道天上卫星数量众多,无法逐一人工管理,所以未来一定是依靠AI进行自主协同,比如,卫星自主决定拍摄地点、数据处理主体及传输分发方式,AI在这一过程中将发挥重要作用。
二是天基数据的融合应用,天上各类数据需要适配农业、森林防火、应急救灾等不同场景,这些在轨数据的融合与加工则可以通过AI实现,让卫星从“看得见”变成“看得懂”,再进一步变成“能主动提醒、能参与决策”。
未来,随着算力更强、模型更轻量、带宽更大,我们会看到越来越多的专业任务在太空中被自动完成,卫星将变得更加聪明、更加自主,也更加贴近实际应用需求。
总地来说,AI算力“上天”已经从最初的探索,进入“可落地、可规模化”的阶段。而单从技术来看,AI算力“上天”也已接近实现,我们近期也有超算“上天”计划,未来一两年相关技术可以成熟并能够逐步开展行业应用示范。我认为,后续补充卫星数量、提升多地区实时服务能力的推进速度也会比较快,待卫星互联网(天数、天网)建成后,天算就成为一个刚需,可能两三年之内相关行业就能用上这类服务。
我们不仅希望实现算力上天,实现遥感的智能化,更希望未来建成的太空超算,能将算力、存储、通信与AI模型等要素放在同一生态圈内,形成“在轨边缘——天基骨干——地面云”的服务链条。
监制:张宁 策划:李政葳 撰文:孔繁鑫 摄制:田津金、张清硕
