博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案-ClouderaSearch...
阅读量:6605 次
发布时间:2019-06-24

本文共 1294 字,大约阅读时间需要 4 分钟。

数据在千万级别上进行全文检索有哪些技术?强大的大数据全文索引解决方案-ClouderaSearch

1.lucene (solr, elasticsearch 都是基于它)
2.sphinx
3.elasticsearch 简单易用。天生分布式。
4.HBasene(注意HBase后面加了ne就是 HBase+lucene)。

solr的请求基本都封装为了http,如果是http服务效率不好呢绕过它,直接透过lucene的API进行查询。

但是solr云的方式部署进行了负载均衡,效率不会太差。
应用查询条件最多20个左右,10个solr节点,每个节点的数据1亿左右。
但是索引不是写在本地磁盘,是写在hdfs上的。

================================

强大的大数据全文索引解决方案-ClouderaSearch
ClouderaSearch带来了全文索引,实时查询和针对CDH和你的企业级数据中心的扩展、灵活性的索引服务。
由Apache Hadoop和Apache Solr提供,是企业级的开源搜索。
Cloudera Search带来了扩展性和可靠性的新一代集成,多个工作任务的搜索。
通过它与CDH独特的整合,Cloudera Search获得了同样的容错性,扩展性,可见性,安全性,以及灵活性的提供其他企业级数据中心的工作。

关键特征:

1.全文索引和小面(faceted,与solr一样)导航,基于Hadoop和HBase中的内容
2.可以基于MapReduce实现批量索引。
3.通过GO-LIVE对动态索(Dynamic index)引进行更新
4.针对实时查询,集成了Flume和Lily HBase indexer。
5.无模式(Schema-less)和动态字段的支持,使schema管理更简单
6.针对hadoop优化的字段格式做了“开箱即可用”(Out-of-the-box)字段的提取
7.多文件(Multi-file)格式的支持和集成能力
8.通过HDFS,实现扩展性和容错性索引存储和访问
9.与Apache Sentry的集成,实现了基于角色,细粒度的权限控制
10.通过使用Morphlines重用了数据配置通过工作量
11.与其他hadoop服务共用了基础设施,资源和数据
12.通过使用Index Aliasing 和 Oozie workflows,使用数据迁移和服务更简单
13.在Hue中有简单,可配置的,基于面(faceted)和全文搜索的UI可以使用
14.所有标准的搜索特征在Solr和SolrCloud中有的
15.跨平台的监控,可见性,资源控制,通过ClouderaManager实现

Cloudera Search是一个整合了Lily,solr(solr cloud),HBase,Hadoop,Flume等,以及使用ClouderaManager来进行管理的全文索引解决方案。

任何人使用这个框架都可以轻松搭建一个与google和百度类似的搜索服务。由此可以看出这个框架的强大之处。

参考官网:

 

转载地址:http://ghfso.baihongyu.com/

你可能感兴趣的文章
编程之美 第1章 游戏之乐——游戏中碰到的题目(十一)
查看>>
mysql for Mac 下创建数据表中文显示为?的解决方法
查看>>
Qt中插入html样式
查看>>
【译】Matplotlib:plotting
查看>>
2016阿里巴巴73款开源产品全向图
查看>>
Glibc 和 uClibc
查看>>
VMware 虚拟机的虚拟磁盘编程知识点扫盲之二
查看>>
vs2012中自带IIS如何让其他电脑访问
查看>>
关于termux在手机上搭载Linux系统,python,ssh
查看>>
Redux:异步操作
查看>>
Mysql学习第三课-分析二进制日志进行增量备份和还原
查看>>
2-11
查看>>
Appium IOS
查看>>
xhprof安装记录
查看>>
POJ1961 Period [KMP应用]
查看>>
CSS hack
查看>>
IT项目管理工具探讨之_项目群管理
查看>>
如何在 Android 手机上安装 Ubuntu 13.04
查看>>
HDU 6073 - Matching In Multiplication | 2017 Multi-University Training Contest 4
查看>>
编程面试过程中常见的10大算法(转)
查看>>