如何在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升｜AICon北京_大数据_AICon 全球人工智能开发与应用大会

智能体刷屏的背后，是 AI 应用拐点的来临？AICon 北京站议程重磅公布，50+ 硬核分享不容错过了解详情 



 写点什么



大小：522.01K时长：02:58

如何在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升｜AICon北京

6 月 27 日-6 月 28 日，AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践，邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家，深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。

Alluxio 解决方案架构师汤文军已确认出席并发表题为《在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升》的主题分享，在 AWS S3 等云对象存储中将数据存储为 Parquet 文件，不仅在大规模数据湖中非常流行，而且还可作为用于训练和推理的轻量级特征存储，或作为用于检索增强生成（RAG）的文档存储。然而，直接从 S3 查询 PB 到 EB 级规模的数据湖所面对的共同挑战是速度很慢，延迟时间通常从数百毫秒到数秒不等。

此次演讲将介绍如何利用 Alluxio 作为超大规模数据湖上的高性能缓存和加速层，对 Parquet 文件进行查询。在不使用专用硬件，不更改数据格式或对象寻址方案，不从数据湖迁移数据的情况下，Alluxio 如何实现亚毫秒级的首字节时间（TTFB）性能，以及 Alluxio 的吞吐量与集群规模的线性扩展。

汤文军现任 Alluxio 解决方案架构师，专注于云原生以及分布式缓存技术，拥有超过 10 年的容器相关领域的公有云和私有云产品架构经验。当前致力于云原生和数据编排领域的融合，以推进 AI 场景下的计算性能优化。他在本次会议的详细演讲内容如下：

演讲提纲
数据驱动型组织直接在云对象存储上存储和提供 Parquet 文件的普遍方式，以及给 AI 应用所带来的挑战；
应对挑战的常见解决办法有哪些；
实现 Parquet 查询 1000 倍性能提升，Alluxio 系统架构及优化设计（单节点优化，可扩展的分布式层，计算卸载等）；
低延迟存储方案的成本对比；
未来工作展望。

听众收益
了解 Alluxio 的架构和工作原理，并学习核心优化技术
了解数据湖查询性能优化实践，掌握查询优化的方法并了解实际案例

除此之外，本次大会还策划了AI Agent 构建与多场景实践、多模态实践与应用、大模型助力研发的实战经验、AI 在业务运营中的深度落地、大模型时代的数据处理与分析、AI 变革下的工程师等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠，单张门票立省 580 元，详情可扫码或联系票务经理 13269078023 咨询。

发布

暂无评论

创作场景

如何在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升｜AICon 北京

评论

Clicker for Netflix Mac(奈飞客户端)v2.13.0激活版

coconutBattery Plus for Mac(电池质量检测工具)4.0.0 直装版

vector magic for Mac(好用的矢量图形转换软件)v1.2.0免激活版

逻辑数据编织：实现多源异构的数据统一化管理、降本增效

云起无垠荣获第八届“强网杯”高阶技术专项赛优秀奖

MacCleaner Pro for Mac(系统综合清理软件)v3.3.5永久激活版

软件格局在变，谁能扛起国产替代的大旗？

BOE（京东方）绿色低碳显示生态交流会成功举办共筑行业绿色未来

网易伏羲亮相CCF程序员大会，有灵AOP平台首届编程挑战赛正式启幕

分布式系统架构：限流设计模式

DriveDx for mac(mac磁盘健康检测和监控工具)v1.12.1激活版

通过云主机调用API，一键训练部署商品问答模型

区块链行业中Solidity编程语言速成:带你了解以太坊智能合约

【YashanDB知识库】jdbc查询st_geometry类型的数据时抛出YAS-00101 cannot allocate 0 bytes for anlHeapMalloc异常

【YashanDB知识库】JDBC驱动的date类型字段结果集调用getString方法只返回日期，不返回时分秒

MacCleaner Pro for Mac(系统综合清理软件)v3.3.5永久激活版

怎么制作关系图？10个关系图模板案例盘点！

4K Video Downloader Plus Pro for Mac(4K视频下载器)v1.10.3激活版

创作场景

如何在 PB 级数据湖上实现 Parquet 查询 1000 倍性能提升｜AICon 北京

评论

推荐阅读

电子书

大厂实战PPT下载