智能体刷屏的背后,是 AI 应用拐点的来临?AICon 北京站议程重磅公布,50+ 硬核分享不容错过 了解详情
写点什么

如何在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升|AICon 北京

  • 2025-06-04
    北京
  • 本文字数:980 字

    阅读完需:约 3 分钟

大小:522.01K时长:02:58
如何在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升|AICon北京

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


Alluxio 解决方案架构师汤文军已确认出席并发表题为《在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升》的主题分享,在 AWS S3 等云对象存储中将数据存储为 Parquet 文件,不仅在大规模数据湖中非常流行,而且还可作为用于训练和推理的轻量级特征存储,或作为用于检索增强生成(RAG)的文档存储。然而,直接从 S3 查询 PB 到 EB 级规模的数据湖所面对的共同挑战是速度很慢,延迟时间通常从数百毫秒到数秒不等。

此次演讲将介绍如何利用 Alluxio 作为超大规模数据湖上的高性能缓存和加速层,对 Parquet 文件进行查询。在不使用专用硬件,不更改数据格式或对象寻址方案,不从数据湖迁移数据的情况下,Alluxio 如何实现亚毫秒级的首字节时间(TTFB)性能,以及 Alluxio 的吞吐量与集群规模的线性扩展。



汤文军现任 Alluxio 解决方案架构师,专注于云原生以及分布式缓存技术,拥有超过 10 年的容器相关领域的公有云和私有云产品架构经验。当前致力于云原生和数据编排领域的融合,以推进 AI 场景下的计算性能优化。他在本次会议的详细演讲内容如下:


演讲提纲

  1. 数据驱动型组织直接在云对象存储上存储和提供 Parquet 文件的普遍方式,以及给 AI 应用所带来的挑战;

  2. 应对挑战的常见解决办法有哪些;

  3. 实现 Parquet 查询 1000 倍性能提升,Alluxio 系统架构及优化设计(单节点优化,可扩展的分布式层,计算卸载等);

  4. 低延迟存储方案的成本对比;

  5. 未来工作展望。


听众收益

  • 了解 Alluxio 的架构和工作原理,并学习核心优化技术

  • 了解数据湖查询性能优化实践,掌握查询优化的方法并了解实际案例


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-04 10:371

评论

发布
暂无评论

Clicker for Netflix Mac(奈飞客户端)v2.13.0激活版

小玖_苹果Mac软件

coconutBattery Plus for Mac(电池质量检测工具)4.0.0 直装版

小玖_苹果Mac软件

vector magic for Mac(好用的矢量图形转换软件)v1.2.0免激活版

小玖_苹果Mac软件

逻辑数据编织:实现多源异构的数据统一化管理、降本增效

Aloudata

数据分析 数据开发 数据管理 数据虚拟化 数据编织

云起无垠荣获第八届“强网杯”高阶技术专项赛优秀奖

云起无垠

MacCleaner Pro for Mac(系统综合清理软件)v3.3.5永久激活版

小玖_苹果Mac软件

软件格局在变,谁能扛起国产替代的大旗?

禅道项目管理

信创 企业转型 项目管理软件 国产软件 国产化替代

BOE(京东方)绿色低碳显示生态交流会成功举办 共筑行业绿色未来

爱极客侠

网易伏羲亮相CCF程序员大会,有灵AOP平台首届编程挑战赛正式启幕

网易伏羲

人工智能 编程挑战赛 网易伏羲 ccf程序员大会

分布式系统架构:限流设计模式

不在线第一只蜗牛

Java 架构 分布式 设计模式

DriveDx for mac(mac磁盘健康检测和监控工具)v1.12.1激活版

小玖_苹果Mac软件

通过云主机调用API,一键训练部署商品问答模型

华为云开发者联盟

云主机 华为云ModelArts API 接口 AI 大底座

区块链行业中Solidity编程语言速成:带你了解以太坊智能合约

chainwiseweb3

智能合约 Solidity dapp开发 dapp开发链游开发 去中心化产品开发

【YashanDB知识库】jdbc查询st_geometry类型的数据时抛出YAS-00101 cannot allocate 0 bytes for anlHeapMalloc异常

YashanDB

数据库 yashandb

【YashanDB知识库】JDBC驱动的date类型字段结果集调用getString方法只返回日期,不返回时分秒

YashanDB

数据库 yashandb

MacCleaner Pro for Mac(系统综合清理软件)v3.3.5永久激活版

小玖_苹果Mac软件

怎么制作关系图?10个关系图模板案例盘点!

职场工具箱

效率工具 职场 办公软件 绘图软件 实体-关系图

4K Video Downloader Plus Pro for Mac(4K视频下载器)v1.10.3激活版

小玖_苹果Mac软件

如何在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升|AICon北京_大数据_AICon 全球人工智能开发与应用大会_InfoQ精选文章