主要做了两个方面:1. ColumnStore+pSCD;2. CPU+FPGA(做数据处理)
这篇是属于DB for AI类型的,目的是用DB手段提高对AI的支持。这篇的总体思路是在Column Store Based Database里让机器学习的模型训练得更快。
原文链接:http://www.vldb.org/pvldb/vol12/p348-kara.pdf
为什么要用Column Store Database?
列存储索引:概述:https://docs.microsoft.com/zh-cn/sql/relational-databases/indexes/columnstore-indexes-overview?view=sql-server-2017
Column Store的好处是对于分析型需求可以更快更省磁盘更省内存(10倍速度,10倍压缩)
选择Column store后出现了问题1→SGD的训练过程对COLUMN store不友好→用SCD解决
想一想就会发现column store对传统SGD并不友好,因为SGD一次取一行数据不是column store的长处而是row store的长处,所以作者曲线救国转向SCD,认为SCD的操作(每次取一列)比较适合column store。后来又进一步节约内存加了个partition,pSCD。
Stochastic Coordinate Descent:https://blog.csdn.net/u013802188/article/details/40476989