在学习熊猫的过程中,我试图解答这个问题好几个月。我将SAS用于日常工作,对于它的核心支持非常重要。但是,由于许多其他原因,SAS作为一款软件很糟糕。 有一天,我希望用python和pandas取代我的SAS,但是我目前缺乏大型数据集的核心外工作流程。我不是在谈论需要分布式网络的“大数据”,而是文件太大而不适合内存,但又足够小以适应硬盘驱动器。 我的第一个想法是用于HDFStore在磁盘上保存大型数据集,并只将需要的部分拖放到数据框中进行分析。其他人提到MongoDB是一种更易于使用的替代方案。我 […]