大多數(shù)數(shù)據(jù)科學家使用諸如R,Python和C / C ++之類的分析工具進行研究。這些工具很難與當前的數(shù)據(jù)庫系統(tǒng)集成,從而導(dǎo)致數(shù)據(jù)分析緩慢而麻煩。北京軟件開發(fā)公司:“數(shù)據(jù)科學家選擇通過開發(fā)??一系列數(shù)據(jù)管理替代方案來重塑數(shù)據(jù)庫系統(tǒng),這些替代方案可以執(zhí)行與傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)相似的任務(wù),但是存在許多數(shù)十年前在數(shù)據(jù)庫領(lǐng)域解決的問題。”
“數(shù)據(jù)庫研究界在開發(fā)功能強大的數(shù)據(jù)庫引擎方面取得了長足的進步,該引擎可進行有效的分析查詢處理。” 軟件開發(fā)公司嘗試將數(shù)據(jù)庫科學中的這些創(chuàng)新與數(shù)據(jù)科學家最常使用的分析工具相結(jié)合。北京軟件外包公司:“我們研究了如何促進分析工具與關(guān)系數(shù)據(jù)庫管理系統(tǒng)的高效,輕松集成。”
大型數(shù)據(jù)集
在計算機科學中使用標準數(shù)據(jù)庫系統(tǒng)的另一個問題是處理的數(shù)據(jù)大小。大多數(shù)數(shù)據(jù)庫系統(tǒng)并未針對使用遠程服務(wù)器的大型數(shù)據(jù)集和大規(guī)模數(shù)據(jù)分析進行優(yōu)化。要優(yōu)化數(shù)據(jù)庫系統(tǒng),可以考慮三種方法。
軟件公司:“我們將研究重點放在數(shù)據(jù)庫-客戶端集成的三種主要方法上:客戶端-服務(wù)器連接,數(shù)據(jù)庫內(nèi)處理以及將數(shù)據(jù)庫嵌入客戶端應(yīng)用程序中。” 對于每種方法,他研究了現(xiàn)有數(shù)據(jù)庫系統(tǒng)中的實現(xiàn),并評估了它們對于數(shù)據(jù)科學中常見的大型數(shù)據(jù)集和工作負載的效率。
鴨數(shù)據(jù)庫
最終結(jié)果是一個名為DuckDB的新數(shù)據(jù)管理系統(tǒng),該系統(tǒng)專用于與R和Python(及其他分析工具)進行高效且輕松的集成。該管理系統(tǒng)旨在用作成熟的數(shù)據(jù)庫系統(tǒng),不僅用于研究目的。“在DuckDB中,我們將從研究數(shù)據(jù)庫-客戶端集成的所有課程中吸取教訓(xùn),并創(chuàng)建一個易于使用且高效的嵌入式數(shù)據(jù)庫。” 北京軟件外包公司將繼續(xù)擔任CWI的博士后,在那里他將繼續(xù)開發(fā)DuckDB。