搜索“spark”Erlo源码分享

· Hugging Face + Spark：打造高效的 NLP 大数据处理引擎(一)

在自然语言处理（NLP）领域，Hugging Face 是不可或缺的处理库，而 Spark 则是大数据处理的必备工具。将两者的优势结合起来，可以实现高效的 NLP 大数据处理。以下是结合 Huggi...

来源：博客园 2025-05-22 00:30 209

· hexo基于TianliGPT使用免费的Spark-Lite制作AI摘要

本人博客 https://www.konoxin.top/ 前提环境 Vercel账号 GitHub仓库域名大家也可以根据代码修改自己想要的效果 ✒️申请星火Spark-...

来源：博客园 2025-05-21 19:30

· HNSWlib-PySpark召回测试

在大数据场景下，高效地进行近似最近邻搜索（Approximate Nearest Neighbors, ANN）是许多应用的关键，如推荐系统、图像检索等。传统的单机版 HNSWlib 在处理大规模数...

来源：博客园 2025-05-19 21:30 176

· spark机器学习：使用ALS完成商品推荐

ALS（Alternating Least Squares）是一种广泛使用的推荐系统算法，特别用于协同过滤（Collaborative Filtering）任务。在 Apache Spark 中，...

来源：博客园 2024-11-28 16:30 207

· 05-快速理解SparkSQL的DataSet

1定义一个数据集是分布式的数据集合。Spark1.6增加新接口Dataset，提供RDD的优点：强类型、能够使用强大lambda函数SparkSQL优化执行引擎的优点可从JVM对象构造Dataset，然后函数式转换（map、flatMap、filter等）操作。DatasetAPI在Sc...

来源：博客园 2024-03-24 23:29 139

· 03-SparkSQL入门

0SharkSpark的一个组件，用于大规模数据分析的SQL查询引擎。Shark提供了一种基于SQL的交互式查询方式，可以让用户轻松地对大规模数据集进行查询和分析。Shark基于Hive项目，使用Hive的元数据存储和查询语法，并基于Hive进行了性能优化和扩展。0.1设计灵感来自Google...

来源：博客园 2024-03-23 20:29 191

· 01-Spark的Local模式与应用开发入门

1Spark的local模式Spark运行模式之一，用于在本地机器上单机模拟分布式计算的环境。在local模式下，Spark会使用单个JVM进程来模拟分布式集群行为，所有Spark组件（如SparkContext、Executor等）都运行在同一个JVM进程中，不涉及集群间通信，适用本地开发、测试....

来源：博客园 2024-03-22 20:29 138

· 打造炫酷效果：用Java优雅地制作Excel迷你图

摘要：本文由葡萄城技术团队原创并首发。转载请注明出处：葡萄城官网，葡萄城为开发者提供专业的开发工具、解决方案和服务，赋能开发者。前言迷你图是一种简洁而有效的数据可视化方式，常用于展示趋势和变化。它通常由一组小型的线条或柱状图组成，用于表示数据的变化情况。迷你图的主要特点是占用空间少且易于理解。...

来源：开源中国 2023-10-13 10:30 171

· Apache Kyuubi & Celeborn (Incubating) 助力 Spar...

本文整理自网易数帆软件工程师潘成，在ASFCommunityOverCodeAsia2023（北京）的分享。本篇内容主要为：1）Spark云原生的收益和挑战；2）如何基于ApacheKyuubi构建统一Spark任务网关；3）如何基于ApacheCeleborn(Incubating)构建Shuff...

来源：开源中国 2023-08-25 11:00 250

· OSCS开源安全周报第 56 期：Apache Airflow Spark Provide...

本周安全态势综述OSCS社区共收录安全漏洞3个，公开漏洞值得关注的是ApacheNiFi连接URL验证绕过漏洞(CVE-2023-40037)、PowerJob未授权访问漏洞(CVE-2023-36106)、ApacheAirflowSparkProvider任意文件读取漏洞(CVE-2023-4....

来源：开源中国 2023-08-21 16:00 267

· 使用PySpark计算AUC,KS与PSI

当特征数量或者模型数量很多的时候，使用PySpark去计算相关风控指标会节省很多的时间。网上关于使用PySpark计算相关风控指标的资料较少，尤其是PSI计算不管是国内还是国外相关的代码都没有正确的，这里抛砖引玉，写了三个风控常用的指标AUC，KS和PSI相关的计算方法，供参考。AUCAUC的相.....

来源：博客园 2023-08-20 16:30 382

· Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Na...

作者：张凯@阿里云、陳韋廷@Intel、周渊@Intel简介ApacheCeleborn(Incubating)是阿里云捐赠给Apache的通用RemoteShuffleService，旨在提升大数据计算引擎的性能/稳定性/弹性，目前已广泛应用于生产场景。Gluten是Intel开源的引擎加速...

来源：开源中国 2023-07-11 14:00 247

· 基于Spark的大规模日志分析

摘要：本篇文章将从一个实际项目出发，分享如何使用Spark进行大规模日志分析，并通过代码演示加深读者的理解。本文分享自华为云社区《【实战经验分享】基于Spark的大规模日志分析【上进小菜猪大数据系列】》，作者：上进小菜猪。随着互联网的普及和应用范围的扩大，越来越多的应用场景需要对海量数据进行高...

来源：开源中国 2023-06-16 11:00 223

· Spark入门看这篇就够了（万字长文）

本文已收录至Github，推荐阅读

来源：博客园 2023-05-29 10:30 116

· 降低 Spark 计算成本 50.18 %，使用 Kyligence 湖仓引擎构建云原生大...

2023中国开源未来发展峰会于5月13日成功举办。在大会开源原生商业分论坛，Kyligence解决方案架构高级总监张小龙发表《云原生大数据底座演进》主题演讲，向与会嘉宾介绍了他对开源发展的见解，数据底座向云原生湖仓一体架构演进的趋势，以及Kyligence湖仓引擎能够在构建下一代云原生数据底座发挥重...

来源：开源中国 2023-05-18 12:00 221

· 提高数据的安全性和可控性，数栈基于 Ranger 实现的 Spark SQL 权限控制实践...

在企业级应用中，数据的安全性和隐私保护是极其重要的。Spark作为数栈底层计算引擎之一，必须确保数据只能被授权的人员访问，避免出现数据泄露和滥用的情况。为了实现SparkSQL对数据的精细化管理及提高数据的安全性和可控性，数栈基于ApacheRanger实现了SparkSQL对数据处理的权限控制。....

来源：开源中国 2023-05-17 16:30 243

· 基于 Zeppelin 的 Flink/Spark 云原生实践

来源：开源中国 2022-11-11 10:30 248

· 马蜂窝毕博：分析完这9点工作原理，我们最终选择了 Apache SeaTunnel！

来源：开源中国 2022-11-04 12:30 231

· Spark on k8s 在阿里云 EMR 的优化实践

导读：随着大数据技术的发展，Spark成为当今大数据领域最受关注的计算引擎之一。在传统的生产环境中，SparkonYARN成为主流的任务执行方式，而随着容器化概念以及存算分离思想的普及，尤其是Spark3.1版本下该模式的正式可用（GA），SparkonK8s已成燎原之势。今天的介绍会围绕下面两点....

来源：开源中国 2022-10-28 18:00 235

· Cloud Shuffle Service 在字节跳动 Spark 场景的应用实践

来源：开源中国 2022-10-21 12:30 314