[Paper Review] ColumnML: ColumnStore Machine Learning with On-The-Fly Data Transformation

主要做了两个方面:1. ColumnStore+pSCD;2. CPU+FPGA(做数据处理)

这篇是属于DB for AI类型的,目的是用DB手段提高对AI的支持。这篇的总体思路是在Column Store Based Database里让机器学习的模型训练得更快。

原文链接:http://www.vldb.org/pvldb/vol12/p348-kara.pdf

为什么要用Column Store Database?

列存储索引:概述:https://docs.microsoft.com/zh-cn/sql/relational-databases/indexes/columnstore-indexes-overview?view=sql-server-2017
Column Store的好处是对于分析型需求可以更快更省磁盘更省内存(10倍速度,10倍压缩)

选择Column store后出现了问题1→SGD的训练过程对COLUMN store不友好→用SCD解决

想一想就会发现column store对传统SGD并不友好,因为SGD一次取一行数据不是column store的长处而是row store的长处,所以作者曲线救国转向SCD,认为SCD的操作(每次取一列)比较适合column store。后来又进一步节约内存加了个partition,pSCD。

Stochastic Coordinate Descent:https://blog.csdn.net/u013802188/article/details/40476989

选择COLUMN STORE后出现了问题2→COLUMN STORE对数据压缩并经常加密,影响速度→用FPGA处理数据转化和加解密

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注