Powered By Apache HBase™

该页面列出了一些使用HBase的机构和项目. 要添加您的组织,请归档文档JIRA或通过电子邮件将相关信息发送给hbase-dev . 如果您发现过时的信息,请使用相同的方式进行报告.

这些项目是用户提交的,HBase团队对其准确性不承担任何责任.

Adobe
目前,在生产和开发中,大约有30个节点在5到14个节点的群集中运行HDFS,Hadoop和HBase. 我们计划在80个节点的群集上进行部署. 从社交服务到结构化数据以及内部使用的处理,我们在多个领域使用HBase. 我们不断将数据写入HBase,并运行mapreduce作业进行处理,然后将其存储回HBase或外部系统. 我们的生产集群自2008年10月以来一直在运行.
Project Astro
Astro为HBase数据提供了快速的Spark SQL / DataFrame功能,具有通过在HBase协处理器中执行本机Spark来对多维HBase行进行超高效访问的功能,以及系统且准确的分区修剪功能以及从任意复杂的数据过滤逻辑中进行谓词下推的功能. 批处理加载已优化为可在Spark执行引擎上运行. 请注意, Spark-SQL-on-HBase是发行站点. 感兴趣的各方可以自由制作克隆,并声称自己是"最新(且活跃)"的,但未经所有者认可.
Axibase Time Series Database (ATSD)
ATSD在HBase之上运行,以大规模收集,分析和可视化时间序列数据. ATSD功能包括优化的存储方案,内置的规则引擎,预测算法(Holt-Winters和ARIMA)以及专为高频数据设计的下一代图形. 主要用例:IT基础架构监视,数据整合,OPC环境中的操作历史学家.
Benipal Technologies
我们有一个35节点的集群,用于通过Lucene / SOLR和katta集成的HBase和Mapreduce,以创建和优化搜索数据库. 当前,我们的HBase安装有超过100亿行,每行100个数据点. 我们每天直接在HBase上使用MapReduce计算超过10 18次计算. 我们心系HBase.
BigSecret
BigSecret是一个安全框架,旨在保护键值数据,同时保留有效的处理能力. 它使用不同密码技术的组合,以有效和安全的方式实现了单元级安全性. 它提供了围绕HBase的包装器库.
Caree.rs
为高科技公司提供加速的招聘平台. 我们将HBase和Hadoop用于我们后端的所有方面-职位和公司数据存储,分析处理,用于招聘推荐引擎的机器学习算法. 我们的实时生产站点直接从HBase提供. 我们使用级联来运行脱机数据处理作业.
Celer Technologies
Celer Technologies is a global financial software company that creates modular-based systems that have the flexibility to meet tomorrow's business environment, today. The Celer framework uses Hadoop/HBase for storing all financial data for trading, risk, clearing in a single data store. With our flexible framework and all the data in Hadoop/HBase, clients can build new features to quickly extract data based on their trading, risk and clearing activities from one single location.
EsgynDB
由Apache Trafodion™支持的EsgynDB在Hadoop上提供企业SQL. 它包括完整的ACID事务,联机事务处理和联机分析处理,以及企业功能,例如灾难恢复和完整备份/还原. 本机表存储在HBase中,但也支持对其他各种文件格式(如Apache Parquet和ORC)的读写访问.
Explorys
Explorys使用包含超过十亿个匿名临床记录的HBase集群,使订户能够搜索和分析患者人群,治疗方案和临床结果.
Facebook
Facebook使用HBase支持其Messages基础架构.
Filmweb
Filmweb是一个电影门户网站,其中包含电影,人物和与电影相关的实体的大量数据集. 我们刚刚启动了一个由3个HBase节点组成的小型集群,以处理Web缓存持久性层. 我们计划增加群集的大小,并开始从我们的数据库中迁移一些对可伸缩性有严格要求的数据.
Flurry
Flurry提供移动应用程序分析. 我们使用HBase和Hadoop进行所有分析处理,并直接在HBase上的50个节点的生产集群上为所有实时请求提供服务,该集群上有几百亿行在多个表上.
GumGum
GumGum是图像内广告平台. 我们在15节点Amazon EC2高CPU超大型(c1.xlarge)群集上使用HBase进行实时数据和分析. 我们的生产集群自2010年6月以来一直在运行.
Helprace
Helprace是一个客户服务平台,使用Hadoop进行分析以及内部搜索和过滤. 在HBase上,我们可以与其他Hadoop进程共享我们的HBase和Hadoop集群-这特别有助于保持社区的速度. 我们在具有4个核心和32 GB RAM的小型集群上使用Hadoop和HBase.
HubSpot
HubSpot是一个在线营销平台,提供分析,电子邮件和线索/联系人细分. HBase是我们为客户的客户数据提供的主要数据存储,其中多个HBase集群为我们的大多数产品提供支持. 我们在各个集群中有近200个区域服务器,还有2个hadoop集群以及近200个任务跟踪器. 两者都在EC2中使用c1.xlarge,但已开始将其中一些移至裸机硬件. 我们已经运行HBase超过2年了.
Infolinks
Infolinks是一个文字广告提供商. 我们使用HBase为我们的文字广告网络处理广告选择和用户事件. 从HBase生成的报告将用作我们生产系统的反馈,以优化广告选择.
Kalooga
Kalooga是图像画廊的发现服务. 我们在20节点群集上使用Hadoop,HBase和Pig进行爬网,分析和事件处理.
LeanXcale
LeanXcale提供了一个超可扩展的事务和SQL数据库,该数据库将其数据存储在HBase上,并且能够扩展到1000个节点. 它还提供了一个独立的完整ACID HBase,其中包含跨任意行和表集的事务.
Mahalo
Mahalo," ...世界上第一个人力搜索引擎". 支持Wiki的所有标记都存储在HBase中. 它已经使用了几个月. MediaWiki-与Wikipedia相同的软件-具有版本/修订控制. Mahalo的内部编辑每天都会进行大量修订,但在RDBMS中效果不佳. 为此构建并测试了基于hbase的解决方案,并将数据从MySQL迁移到了HBase. 现在,它在HBase中的存储量约为600万. 上载工具每小时从shell脚本运行一次以备份该数据,并且在6个节点上运行大约需要5-10分钟-完全不会减慢生产速度.
Meetup
Meetup的使命是帮助世界人民自我组织成当地团体. 我们使用Hadoop和HBase为我们的所有成员和组提供站点范围的实时活动供稿系统. 组活动直接写入HBase,并按成员索引,而成员的自定义提要直接从HBase为传入的请求提供服务. 我们正在11个节点的群集上运行HBase 0.20.0.
Mendeley
Mendeley正在为研究人员创建一个平台,以在线合作和共享他们的研究. HBase正在帮助我们创建世界上最大的研究论文集,并被用于存储我们所有的原始导入数据. 我们使用大量的map reduce作业将这些文件处理成网站上显示的页面. 我们还将HBase与Pig一起使用来进行分析并生成网站上显示的文章统计信息. 您可以在MendeleyHBase幻灯片演示文稿中找到有关我们如何使用HBase的更多信息.
NGDATA
NGDATA提供了Lily (消费者智能解决方案),它在一个集成解决方案中提供了大数据管理,机器学习技术和消费者智能应用程序的独特组合,以提供更好,更动态的消费者见解. Lily允许公司处理和分析大量的结构化和非结构化数据,灵活地扩展存储,并以接近实时的方式快速从大型数据源中定位可操作的数据.
Ning
Ning使用HBase来存储和提供处理用户事件和日志文件的结果,这使我们能够提供近乎实时的分析和报告. 我们使用一台小型商用机器集群,该集群具有4个内核,每台机器16 GB的RAM来满足我们所有的分析和报告需求.
OCLC
OCLC使用HBase作为WorldCat的主要数据存储,WorldCat是一个联合目录,汇总了112个国家和地区的72,000个图书馆的馆藏. 目前,WorldCat包含近10亿条记录,并拥有近20亿个图书馆所有权标志. 我们正在运行一个50节点的HBase集群和一个单独的离线map-reduce集群.
OpenLogic
OpenLogic在HBase中存储世界上所有的开放源代码软件包,版本,文件和代码行,以用于近实时访问和分析目的. 生产集群在具有32GB + RAM和双四核或双十六进制核心CPU的节点上分布着超过100TB的磁盘.
Openplaces
Openplaces是用于旅行的搜索引擎,它使用HBase来存储TB级的网页和与旅行相关的实体记录(国家,城市,酒店等). 我们有数十个MapReduce作业每天处理数据. 我们使用20节点群集进行开发,使用40节点群集进行脱机生产处理,并使用EC2群集进行实时网站开发.
Pacific Northwest National Laboratory
PNNL的计算生物学和生物信息学小组正在将Hadoop和HBase(Cloudera发行版)用于系统生物学数据仓库项目,该项目集成了来自美国能源部国家用户环境分子科学实验室仪器的高通量蛋白质组学和转录组学数据集.位于PNNL的设施. 数据集正在与数据仓库环境中的其他公共基因组学信息合并和注释,同时Hadoop分析程序对HBase表中的注释数据进行操作. 这项工作由大型PNNL机构计算集群olympus托管,HBase表存储在olympus的Luster文件系统中.
ReadPath
| ReadPath使用HBase为其RSS新闻阅读器存储数亿个RSS项目和字典. Readpath当前在8节点群集上运行.
resu.me
职业网络为网络一代. 我们将HBase和Hadoop用于后端的所有方面-用户和简历数据存储,分析处理,用于我们的工作推荐引擎的机器学习算法. 我们的实时生产站点直接从HBase提供. 我们使用级联来运行脱机数据处理作业.
Runa Inc.
Runa Inc.提供了一个SaaS,使在线商家可以在其网站中嵌入动态的按消费者,按产品促销. 为实现此目的,我们收集所有访客的点击流,以确定商户规则,并确定在访客浏览商家网站的不同时间向访客提供什么促销. 因此,我们拥有大量数据,并且必须进行大量离线和实时分析. HBase是我们的核心. 我们还使用Clojure和我们自己的开源分布式处理框架Swarmiji. HBase社区一直是我们HBase向前发展的关键. 我们正在寻找经验丰富的开发人员加入我们,以帮助使事情发展更快!
Sematext
Sematext runs Search Analytics, a service that uses HBase to store search activity and MapReduce to produce reports showing user search behaviour and experience. Sematext runs Scalable Performance Monitoring (SPM), a service that uses HBase to store performance data over time, crunch it with the help of MapReduce, and display it in a visually rich browser-based UI. Interestingly, SPM features SPM for HBase, which is specifically designed to monitor all HBase performance metrics.
SocialMedia
SocialMedia使用HBase来存储和处理用户事件,这使我们能够提供近乎实时的用户指标和报告. HBase构成了我们广告网络数据存储和管理系统的核心. 我们将HBase用作实时请求周期查询和mapreduce分析的后端的数据源和接收器.
Splice Machine
拼接机是建立在HBase之上的. Splice Machine是功能齐全的ANSI SQL数据库,可提供实时更新,二级索引,ACID事务,优化的联接,触发器和UDF.
Streamy
Streamy是最近发布的实时社交新闻网站. 我们使用HBase满足我们所有的数据存储,查询和分析需求,取代了现有的基于SQL的系统. 其中包括数亿个文档,稀疏矩阵,日志以及关系系统中曾经完成的所有其他操作. 我们对查询结果执行大量的内存中缓存,类似于传统的Memcached / SQL设置以及其他用于执行联接和排序的外部组件. 我们还使用HBase表运行数千个每日MapReduce作业,以进行日志分析,关注数据处理和feed抓取. HBase帮助我们以前所未有的方式扩展和分发,社区提供了持续而宝贵的帮助.
Stumbleupon
Stumbleupon和Su.pr使用HBase作为实时数据存储和分析平台. 直接从HBase服务,各种站点功能和统计信息以实时方式保持最新. 我们还使用HBase的map-reduce数据源来克服MySQL中传统的查询速度限制.
Shopping Engine at Tokenizer
Shopping Engine at Tokenizer is a web crawler; it uses HBase to store URLs and Outlinks (AnchorText + LinkedURL): more than a billion. It was initially designed as Nutch-Hadoop extension, then (due to very specific 'shopping' scenario) moved to SOLR + MySQL(InnoDB) (ten thousands queries per second), and now - to HBase. HBase is significantly faster due to: no need for huge transaction logs, column-oriented design exactly matches 'lazy' business logic, data compression, !MapReduce support. Number of mutable 'indexes' (term from RDBMS) significantly reduced due to the fact that each 'row::column' structure is physically sorted by 'row'. MySQL InnoDB engine is best DB choice for highly-concurrent updates. However, necessity to flash a block of data to harddrive even if we changed only few bytes is obvious bottleneck. HBase greatly helps: not-so-popular in modern DBMS 'delete-insert', 'mutable primary key', and 'natural primary key' patterns become a big advantage with HBase.
Traackr
Traackr使用HBase实时存储和提供在线影响者数据. 我们使用MapReduce经常重新评分整个数据集,因为我们每天都在更新影响者指标.
Trafodion
Apache Trafodion™是Webscale的SQL-on-Hadoop解决方案,支持事务或操作工作负载. 它使用HBase作为SQL表的存储引擎.
Trend Micro
趋势科技使用HBase作为各种应用程序的云规模存储的基础. 自0.1版以来,我们一直在使用HBase进行开发,而自0.20.0版以来,我们一直在进行生产.
Twitter
Twitter在整个Hadoop集群中运行HBase. HBase在Twitter的生产后端中为所有mysql表提供了分布式的读/写备份,使工程师可以对数据运行MapReduce作业,同时保持应用定期行更新的能力(这对于普通HDFS而言更难做到). 包括人员搜索在内的许多应用程序内部都依赖HBase来生成数据. 此外,运营团队将HBase用作时间序列数据库,以用于集群范围的监视/性能数据.
Udanax.org
Udanax.org是一个URL缩短器,它使用10个节点的HBase群集来存储URL,Web日志数据并在其Web服务器上响应实时请求. 现在,此应用程序用于某些Twitter客户端和许多网站. 当前,API请求几乎是每秒30个,Web重定向请求大约是每秒300个.
Veoh Networks
Veoh Networks使用HBase来存储和处理访问者(人员)和实体(非人员)配置文件,这些配置文件用于行为定位,人口统计检测和个性化服务. 我们的网站实时(高速缓存)读取此数据,并通过各种批处理图/减少作业提交更新. 每月有2500万唯一身份访问者无法将数据存储在传统的RDBMS中. 我们目前有一个24节点的Hadoop / HBase集群,我们的分析系统正在与其他Hadoop数据管道流程共享该集群.
VideoSurf
VideoSurf-"教计算机观看的视频搜索引擎". 我们正在使用HBase来保存各种大型数据图和其他统计数据. HBase对我们而言是一次真正的胜利,因为它使我们能够存储大量的数据集,而无需手动分区数据,并且其面向列的性质使我们能够创建在存储和检索数据方面更为有效的模式.
Visible Technologies
Visible Technologies使用Hadoop,HBase,Katta等来收集,解析,存储和搜索数亿社交媒体内容. 我们在商用硬件上获得了令人难以置信的快速吞吐量和极低的延迟. HBase使我们的业务得以存在.
WorldLingo
WorldLingo多语言档案馆. 我们使用HBase存储我们使用Map / Reduce作业扫描的数百万份文档,以将其机器翻译成我们可用的机器翻译语言集中的所有或选定的目标语言. 我们目前存储1200万个文档,但计划最终达到4.5亿个大关. HBase使我们可以根据需要扩展存储容量进行横向扩展. 与Hadoop结合使用,可以保持数据的复制并因此实现故障保护,我们现在和将来都将拥有我们的服务可以依靠的骨干. !WorldLingo从2007年12月开始使用HBase,并且它与其他几个运行时间最长的HBase安装一起. 当前,我们正在运行最新的HBase 0.20,并可以通过MultilingualArchive直接从中进行服务.
Yahoo!
雅虎! 使用HBase存储文档指纹以检测近重复. 我们有几个节点的群集,这些节点运行HDFS,mapreduce和HBase. 该表包含数百万行. 我们使用它来查询具有实时流量的重复文档.
HP IceWall SSO
HP IceWall SSO是基于Web的单点登录解决方案,使用HBase来存储用户数据以对用户进行身份验证. 我们以前曾支持RDB和LDAP,但是最近又对HBase进行了支持,以期对数以千万计的用户和设备进行身份验证.
YMC AG
  • 操作Cloudera Hadoop / HBase集群以进行媒体监视
  • 为Hadoop堆栈+生态系统提供技术和运营咨询
  • Hannibal的编辑器, Hannibal是一种开放源代码工具,可可视化HBase区域的大小和拆分,从而有助于在生产中运行HBase

by  ICOPY.SITE