作为数据仓库和ETL的开发者,如果只想把时间用在创建BI解决方案上,那么任何用于软件安装和配置的时间都是一种浪费。例如,为了创建数据库连接,很多与Kettle类似的工具都要求用户手工输入数据库驱动的类名...查看全文>>
我们都知道,Python函数是支持嵌套的。如果在一个内部函数中对外部函数作用域(非全局作用域)的变量进行引用,那么内部函数就会被称为闭包...查看全文>>
简单来说,匿名函数就是没有名称的函数,也就是不再使用def定义的函数。如果要声明匿名函数,则需要使用lambda关键字,匿名函数的声明格式如下查看全文>>
在 Python 中,list是动态数组。所以在Python中列表和链表的内存使用非常相似。链表和数组在以下的操作中有本质区别:查看全文>>
数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。下面通过一张图描述数据清洗的基本流程,具体如图所示。查看全文>>
由于缺乏或者不准确的数据统计信息(元数据)和对成本的错误估算(执行计划调度)导致生成的初始执行计划不理想在Spark3.x版本提供Adaptive Query Execution自适应查询技术通过在”运行时”对查询执行计划进行优化, 允许Planner在运行时执行可选计划,这些可选计划将会基于运行时数据统计进行动态优化, 从而提高性能。查看全文>>