博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
041 SparkSql的回顾与复习
阅读量:6873 次
发布时间:2019-06-26

本文共 534 字,大约阅读时间需要 1 分钟。

  在前面学完了SparkCore后,又学了SparkSQL,在继续加深学习之前,一定的复习还是很重要的。这里大体写一下,加深自己对SparlSQL的理解。

1.SparkSQL

  首先是SaprkSQL与HIve的继承

  然后是ThriftServer服务(JDBC/ODBC)

  SparlSQL开发语言:

    HQL:表需要存在(可以是HIve表存在,也可以是临时表存在--这样需要DateFrame注册)

    DSL:DateFrame相关的API(select,groupby。。。)

  DateFrame:SparkSQL的抽象

    RDD+Schema

    内部是一个逻辑计划

    编程模式:read与writer编程,这是一个链式编程

  SparkSQL默认支持的数据源

    hive

    rdbms

    parquet

    json

  多数据源的数据可以进行join操作

    注册成两张临时表,然后就可以进行join了

  可以替换Sqoop的工作,做数据同步的事情

    hive,hdfs(text,parquet,avro,orc),hbase,RDBMS,redis,MongoDB

  

转载地址:http://lwlfl.baihongyu.com/

你可能感兴趣的文章
节点操作
查看>>
【Java】几道常见的秋招面试题
查看>>
多媒体编程
查看>>
深拷贝的终极探索(99%的人都不知道)
查看>>
如何进行MaxCompute 用户认证?
查看>>
【go共识算法】-POW
查看>>
.Net Core在Middleware中解析RouteData
查看>>
[LeetCode] 303. Range Sum Query - Immutable
查看>>
学委助手
查看>>
Debounce 和 Throttle 的原理及实现
查看>>
Nodejs操作MongoDB
查看>>
JavaScript数组的十八般武艺
查看>>
CentOS7 使用yum安装mysql 并配置远程连接
查看>>
Swoole 源码分析——内存模块之swBuffer
查看>>
CORS跨域
查看>>
进行版本迭代过程中,使用spring jpa来完美解决数据表更新的问题
查看>>
分享一个用react-native写的app,适合新手学习react-native
查看>>
React之PureComponent
查看>>
node网络爬虫实例了解下?
查看>>
js对象(一)——创建对象
查看>>