gpu 数据库_评论:OmniSci GPU数据库提升了庞大的数据集
gpu 数据库 我们中的许多人充斥着大量数据,以至于传统数据库和传统BI系统无法跟上,至少不能实时进行。 有一些变通办法,例如对数据进行采样或处理日久的报告,但是每个变通办法都是一个折衷方案。OmniSci (以前称为MapD) 可以通过使用GPU加速其数据库,渲染引擎和可视化系统来实时处理大量数据。 OmniSci已在产生大量数据的许多行业中找到了应用,包括电信,汽车远程信息处理,石油和...
gpu 数据库
我们中的许多人充斥着大量数据,以至于传统数据库和传统BI系统无法跟上,至少不能实时进行。 有一些变通办法,例如对数据进行采样或处理日久的报告,但是每个变通办法都是一个折衷方案。
OmniSci (以前称为MapD) 可以通过使用GPU加速其数据库,渲染引擎和可视化系统来实时处理大量数据。 OmniSci已在产生大量数据的许多行业中找到了应用,包括电信,汽车远程信息处理,石油和天然气勘探,国防和情报。
凭借映射和BI功能以及不到几秒的响应时间(即使具有数千万行的响应时间),您希望OmniSci与Tableau和Esri直接竞争。 但实际上,OmniSci在如何使用它来同时加速Tableau和Esri方面具有很大意义。
据该公司称,OmniSci将与机器学习功能集成,并在明年变得对数据科学家更加有趣。 这具有技术意义,因为该产品已经依赖CUDA和Nvidia GPU,并且Nvidia已经开发了必要的GPU加速的机器学习和深度学习库。 但是,从用户的角度来看,我尚不清楚该如何工作。
OmniSci作为GPU加速的数据库分析平台的替代产品包括Brytlyt , SQream DB , BlazingSQL和Kinetica 。
OmniSci功能和体系结构
如下图所示,OmniSci具有多个组件。 三个主要组件是核心数据库引擎,呈现引擎和数据可视化界面。
OmniSci Core是开源GPU加速SQL关系数据库服务器引擎,具有强大的GIS(地理空间)支持和某些数据科学功能。 支持SQL方言称为OmniSQL,并且在大多数情况下看起来类似于MySQL和PostgreSQL。 例如,OmniSQL使用LIMIT子句(MySQL和PostgreSQL)截断SELECT查询结果集,而不是使用TOP(SQL Server)或ROWNUM(Oracle)子句。 地理空间支持使用开放地理空间联盟(OGC)类型。
OmniSci Core的主要区别在于,即使在具有数十亿行的表上,它也能够以毫秒为单位返回结果。 当然,要获得这样的性能,您需要大量的RAM,尤其是大量的GPU VRAM。 具体来说,2 GB的GPU RAM可处理3000万行,并随GPU RAM线性扩展。
OmniSci Render是GPU加速的图形服务器,该服务器获取针对OmniSci CoreSQL查询的输出,并使用它们生成诸如点图,十字轴图和散点图之类的图表。 Render使用Vega Visualization Grammar规范定义输出,并将其创建为PNG图像。 然后,将PNG图像通过电线发送到Immerse,这比在客户端上渲染数百万个点要快得多且效率更高。
OmniSci Immerse是基于Web的数据可视化界面。 其用于定义图表的用户界面与Qlik和Tableau等BI工具非常相似。 浸入式图表组合成仪表板,用户可以对仪表板上的图表进行交叉过滤,例如,通过选择饼图上的项目或放大点图。 当我讨论OmniSci演示时,我将提供一些示例。
OmniSci SKU
OmniSci提供企业版,云版和开源版。 可以配置企业版以实现高可用性。 开源版本只是OmniSci Core数据库。
您可以在本地或云中运行免费的开源OmniSci Core SQL数据库。 如果要获得良好的性能,请与Nvidia GPU一起运行。 对于要分析的每1500万行数据,请使用1 GB的GPU内存。
如果您想获得OmniSci的全部好处,包括GPU增强的渲染引擎和Immerse Web UI,请考虑使用Enterprise版本或OmniSci Cloud。 如果要在本地运行,则需要企业版。 在三大公共云之一中运行的OmniSci Enterprise或OmniSci Cloud,都将为您提供基于浏览器和基于云的系统。
OmniSci Cloud和演示
我注册了OmniSci Cloud的14天免费试用版,该计划可以访问2 GB的GPU内存。 云试用版已预先安装了三个仪表板:NYC Tree Census 2015,NYC Taxi Rides和Flights Demo。 我探索了这些以及几个共享的独立演示 ,它们具有更多的行并在更大的实例上运行。
所有这些演示都在扁平化的数据集上运行。 虽然OmniSci支持JOIN和VIEW,但使用它们确实会增加一些开销。
NYC Tree Census演示仪表板反映了2015年纽约市的树木数量,共有683,788行。 在浏览这个相对较小的数据集时,我经历了一致的亚秒级响应。
NYC Taxi Rides仪表板显示了2015年12月的1300万次骑行。在我探索该仪表板时,我得到了不到一秒的回复。
共享的出租车小费演示程序除了将行驶表与建筑物数据集连接之外,还使用了7年的NYC Taxi Rides数据,并在表中存储了与每个下车和领取地点最近的建筑物。 该数据集具有12 亿条记录,这对于OmniSci而言也非常重要。 有时,我缩放和平移地图时背景要花几秒钟的时间,而应用影响数亿行的交叉过滤也会导致刷新几秒钟。
预安装的仪表板中只有一小部分(2008年以来有700万条记录)“美国航班”数据集,但完整的数据集(1.76亿条飞行记录)可在共享演示中获得 。 当我浏览完整的数据集时,图表大部分在两到三秒钟内更新。
设计OmniSci图表
如您在下面的屏幕快照中所见,OmniSci支持16种图表类型 。 每种图表都有自己的设计器; 下面的一个用于点图。 此示例来自“纽约市树木普查”仪表板。
OmniSci接口和API
OmniSci数据库支持ODBC和JDBC(包括RJDBC)连接器。 它还支持通过Immerse命令行进行SQL查询。 当您以图形方式使用Immerse时,它会在后台生成SQL查询。 通过在浏览器中打开JavaScript控制台并键入SQLLogging(true)
加<enter>,可以查看发生SQL查询。
有两个API可从Python连接到OmniSci。 Pymapd实现了与Python DB API 2.0兼容的接口,并以基于Apache Arrow的GDF(GPU数据框架)格式返回结果,以实现高效的数据交换。 JayDeBeApi提供了从Python到JDBC连接器的接口; 查询结果可用于实例化Pandas DataFrame,从中可以分析和绘制数据。
如果您有数十亿行的表需要交互进行浏览而不进行下采样,那么OmniSci的GPU加速分析平台正是您所需要的。 能够深入研究该大小的数据集,并在响应时间少于三秒的情况下绘制结果,这对于数据分析师来说是一种解放。
同样,如果数据不断流到数据库中,OmniSci可以让您刷新数据集,从而在尝试实时分析流与分析日间快照之间提供了一个很好的折衷方案。 您可以手动(使用Immerse刷新图标, 而不是浏览器刷新键)从Immerse仪表板刷新,也可以定期自动刷新。
尽管OmniSci并不是唯一一个 GPU加速的数据库和分析平台,但它无疑是一个很好的平台。 它是否适合您的数字财产取决于您还使用什么,拥有多少数据以及是否需要实时浏览数据。
-
费用: OmniSci开源:免费。 OmniSci Cloud:14天免费试用后,每月$ 95至$ 2,050。 OmniSci Enterprise:联系销售人员; 免费试用。
平台: CentOS / RHEL,Ubuntu,Arch Linux,MacOS。 使用GPU需要CUDA。 OmniSci Cloud仅需要浏览器。
翻译自: https://www.infoworld.com/article/3384708/review-omnisci-gpu-database-lifts-huge-data-sets.html
gpu 数据库
更多推荐
所有评论(0)