Planet MySQL

Displaying posts with tag: spark (reset)

Nov

2018

Posted by mysql-云栖社区 on Tue 27 Nov 2018 06:38 UTC
Tags:

OSS, image, hbase, MySQL, spark, 存储, 数据存储, 人工智能, 钉钉, 对象存储

近几年来，人工智能逐渐火热起来，特别是和大数据一起结合使用。人工智能的主要场景又包括图像能力、语音能力、自然语言处理能力和用户画像能力等等。这些场景我们都需要处理海量的数据，处理完的数据一般都需要存储起来，这些数据的特点主要有如下几点：大：数据量越大，对我们后面建模越会有好处；稀疏：每行数据可能拥有不同的属性，比如用户画像数据，每个人拥有属性相差很大，可能用户A拥有这个属性，但是用户B没有这个属性；那么我们希望存储的系统能够处理这种情况，没有的属性在底层不占用空间，这样可以节约大量的空间使用；列动态变化：每行数据拥有的列数是不一样的。

【OSS】 …

[获取更多]

Nov

2018

突破DBMS局限性，阿里借力Spark提升查询性能

Posted by mysql-云栖社区 on Mon 05 Nov 2018 09:14 UTC
Tags:

sql, DBMS, MapReduce, MySQL, 数据库, 分布式, 大数据, 性能, spark, 存储, 线程, 架构, 数据仓库, DRDS

我们知道SQL Server是一款技术上和商业上都很成功的产品，这一次微软选择拥抱Spark大数据生态，着实令人有些惊讶。国内的几款产品也丝毫不落后，阿里云的DRDS、腾讯云TDSQL也都各自推出了与Spark相融合的产品。

【分布式】【大数据】【架构】【mysql】【性能】【SQL】【线程】 …

[获取更多]

Nov

2018

E-Mapreduce如何处理RDS的数据

Posted by mysql-云栖社区 on Mon 05 Nov 2018 07:55 UTC
Tags:

Apache, jdbc, hadoop, sqoop, RDS, Maven, MySQL, 配置, spark, aliyun, 脚本, pipeline, url, e-mapreduce

一、引言目前网站的一些业务数据存在数据库中，这些数据往往需要做进一步的分析，如：需要根据一些日志数据关联分析，或者需要进行一些如机器学习的分析。在阿里云上，目前E-Mapreduce能满足这种分析的需求。

【mysql】【RDS】【hadoop】【Apache】【配置】【Maven】【spark】 …

[获取更多]

Oct

2018

MySQL因不能创建 PID 导致无法启动的解决办法

Posted by mysql-云栖社区 on Tue 09 Oct 2018 01:02 UTC
Tags:

code, database, session, server, file, service, MySQL, create, spark, unit

MySQL 启动报错信息如下： Starting mysqld (via systemctl): Job for mysqld.service failed because the control process exited with error code. See "systemctl status mysqld.service" and "journalctl -xe" for details、 [FAILED] 根据提示，使用 systemctl status mysqld.service 和 journalctl -xe 查看服务启动失败的原因。

【mysql】【code】【spark】【Server】【Create】【session】 …

[获取更多]

Sep

2018

centos7安装Cloudera Manager

Posted by mysql-云栖社区 on Tue 11 Sep 2018 10:55 UTC
Tags:

server, service, js, MySQL, 同步, 配置, 服务器, spark, 主机

第一部分：准备工作一，修改hostname $vim /etc/sysconfig/network $source /etc/sysconfig/network

例如： NETWORKING=yes HOSTNAME=spark01

reboot重启服务器二，关闭selinux查看SELin.

【服务器】【mysql】【配置】【js】【主机】【同步】【spark】 …

[获取更多]

Aug

2018

知识点

Posted by mysql-云栖社区 on Fri 17 Aug 2018 07:43 UTC
Tags:

Linux, spring, tomcat, redis, MySQL, storm, elasticsearch, 分布式, spark, 消息队列, 多线程, 监控, 集群, 中间件, 分布式系统

1、mysql分库分表策略，mysql集群2、异常监控，上报3、ump监控4、jimdb原理5、jsf原理 1、jdk常用类库2、集合3、锁4、多线程5、NIO6、网络7、分布式系统设计8、soa，主流soa框架9、分布式缓存10、消息队列11、分布式中间件原理及使用12、spring13、spr...

【linux】【分布式】【redis】【监控】【storm】【消息队列】 …

[获取更多]

Aug

2018

记录一次spark连接mysql遇到的问题

Posted by mysql-云栖社区 on Wed 15 Aug 2018 14:01 UTC
Tags:

Java, sql, Apache, Security, jdbc, Class, native, Scala, MySQL, read, spark

在使用spark连接mysql的过程中报错了，错误如下

08:51:32.495 [main] ERROR - Error loading factory org.apache.calcite.jdbc.

【java】【native】【mysql】【SQL】【Apache】【spark】【scala】【JDBC】 …

[获取更多]

Jun

2018

欢迎访问我的独立博客 tracefact.net

Posted by mysql-云栖社区 on Mon 25 Jun 2018 09:44 UTC
Tags:

Linux, Hive, MySQL, 同步, Zookeeper, Docker, 配置, 大数据, 防火墙, spark, 源码, 架构, 集群, 镜像, 持续集成

欢迎访问我的独立博客 tracefact.net

长期以来，我都同时维护着两个博客，博客园和 tracefact.net，感觉有点分散精力，所以博客园以后不再每篇文章都同步更新了，只挑选一些个人认为最好的文章。

【linux】【大数据】【架构】【docker】【mysql】【防火墙】【源码】 …

[获取更多]

Apr

2018

Spark 写出MySQL报错，java.sql.BatchUpdateException

Posted by mysql-云栖社区 on Wed 11 Apr 2018 14:35 UTC
Tags:

Java, sql, sun, jdbc, string, MySQL, spark, DataFrame

spark DataFrame 写出到MySQL时报如下错误：

java.sql.BatchUpdateException: Column ‘name’ specified twice at sun.reflect

原因：写出的DataFrame 表结构和MySQL中创建的表结构不一致， 2个 DataFrame join 后的结果中有两列都是“name”列。

【java】【mysql】【SQL】【spark】【DataFrame】【string】 …

[获取更多]

Jan

2018

使用EMR来进行mysqlbinlog日志准实时传输

Posted by mysql-云栖社区 on Thu 04 Jan 2018 02:40 UTC
Tags:

Apache, OSS, hadoop, MySQL, 数据库, 日志, 配置, 大数据, spark, 集群, aliyun, 控制台, 实时系统, emr, SLS

如何利用阿里云的sls插件功能和emr来进行mysql binlog的准实时传输

【大数据】【实时系统】【OSS】【mysql】【hadoop】【日志】【SLS】【Apache】【数据库】 …

[获取更多]

Get Started Contributing

Oracle MySQL Blogs

MySQL 其他链接