表示 进入内容 516088
« 先前的 10 新的记录 | 下一步 10 较早的记录 »
Displaying posts with tag: 数据仓库 (reset)
存储帮助Facebook 150万用户顺畅交友

 

Facebook的用户现在每个月都上传超过800万张数码照片,截至去年夏天,Facebook是全球排名第一的网络照片存储网站,共存储了6.5亿张图片,同时,Facebook还拥有500多万部影片,以及其他内容,其中包括约20万件网络新闻、博客文章以及报告和评论,总计存储的数据量达到数个PB,所有这些数据都需要安全的存储,而且需要马上就进行检索。

【服务器】  【mysql】  【数据库】  【数据仓库】  【对象存储】   …

[获取更多]
分布式HTAP数据库PetaData(HybridDB for MySQL) —— OLTP与OLAP一站式解决方案

一、前言       在大数据推动行业发展的年代,大型企业级应用往往选择多种数据库产品,分别支持在线交易、报表生成、日志存储、离线分析等,用以驱动业务的高速发展,但这种组合式解决方案,需要精细的控制不同产品间的数据流转和一致性问题,使用难度颇高,每个数据库产品间的数据同步和冗余,也带来了很高的成本开销,进一步限制了企业级应用的发展。

【数据存储与数据库】  【分布式】  【大数据】  【架构】   …

[获取更多]
《MySQL技术内幕:InnoDB存储引擎第2版》——1.3 MySQL存储引擎

本节书摘来自华章计算机《MySQL技术内幕:InnoDB存储引擎第2版》一书中的第1章,第1.3节,作者:姜承尧著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

【算法】  【mysql】  【innodb】  【Oracle】  【性能】  【高可用】  【数据库】   …

[获取更多]
Hive从概念到安装使用总结

一、Hive的基本概念 1.1 hive是什么? (1)Hive是建立在hadoop数据仓库基础之上的一个基础架构; (2)相当于hadoop之上的一个客户端,可以用来存储、查询和分析存储在hadoop中的数据; (3)是一种SQL解析引擎,能够将SQL转换成Map/Reduce中的Job在hadoop上执行。

【mysql】  【hadoop】  【数据库】  【配置】  【数据仓库】  【string】   …

[获取更多]
创业公司做数据分析(六)数据仓库的建设

作为系列文章的第六篇,本文将重点探讨数据处理层中数据仓库的建设。在第二篇运营数据系统一文,有提到早期的数据服务中存在不少问题,虽然在做运营Dashboard系统时,对后台数据服务进行了梳理,构建了数据处理的底层公共库等,但是仍然存在一些问题: 中间数据流失,计算结果没有共享。

【python】  【mysql】  【innodb】  【数据处理】  【创业】   …

[获取更多]
SparkSQL – 有必要坐下来聊聊Join

Join背景介绍 Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分为简单操作(过滤操作-where、排序操作-limit等),聚合操作-groupBy等以及Join操作等。其中Join操作是其中最复杂、代价最大的操作类型,也是OLAP场景中使用相对较多的操作。

【分布式】  【大数据】  【算法】  【mysql】  【数据库】  【数据仓库】   …

[获取更多]
基于HybridDB for MySQL的企业ODS方案

随着DT时代的到来,数据的价值日益凸显。企业积累的数据越来越多,数据库的规模也达到成百上千个实例,数据的规模更可能达到上百TB甚至PB级。如何以合理的成本管理并维护海量实例,利用尽可能短的时间窗口进行挖掘分析,成为各个企业IT管理中的核心问题。

【大数据】  【架构】  【mysql】  【性能】  【数据库】  【数据仓库】   …

[获取更多]
Yelp开源数据管道项目最新组件——数据管道客户端库

2016年底,Yelp开源了他们基于Python和Apache Kafka的数据管道客户端库。该库提供了一个发布和消费数据管道主题的接口。之前的讨论涉及Yelp的数据管道组件以及分布式服务数据集成所面临的挑战,也就是N+1问题和梅特卡夫定律。

【分布式】  【mysql】  【日志】  【数据库】  【数据仓库】  【数据类型】   …

[获取更多]
什么数据库最适合数据分析师

数据分析师都想使用数据库作为数据仓库处理并操作数据,那么哪一款数据库最合适分析师呢?虽然网上已经有很多对各种数据库进行比较的文章,但其着眼点一般都是架构、成本、可伸缩性和性能,很少考虑另一个关键因素:分析师在这些数据库上编写查询的难易程度。

【PostgreSQL】  【mysql】  【性能】  【SQL】  【数据库】  【数据仓库】   …

[获取更多]
最全大数据学习资源整理

关系数据库管理系统(RDBMS)

  MySQL:世界最流行的开源数据库; PostgreSQL:世界最先进的开源数据库; Oracle 数据库:对象-关系型数据库管理系统。 框架 Apache Hadoop:分布式处理架构,结合了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统); Tigon:高吞吐量实时流处理框架。

【分布式】  【大数据】  【数据可视化】  【mysql】  【hbase】   …

[获取更多]
表示 进入内容 516088
« 先前的 10 新的记录 | 下一步 10 较早的记录 »