<分区>

我已经为自己设置了 Amazon Elastic MapReduce,以便执行各种标准机器学习任务。我过去广泛使用 Python 进行本地机器学习,但我不懂 Java。

据我所知,没有用于分布式机器学习的完善的 Python 库。另一方面,Java 有 Apache Mahout和最近的 Oryx来自 Cloudera。

从本质上讲,我似乎必须在两个选项之间做出选择。通过并行化我自己的算法以与 Hadoop streaming 一起使用或 Python wrapper for Hadoop 之一直到存在合适的库或跳转到 Java,以便我可以使用 Mahout/Oryx。编写自己的 MapReduce 字数统计代码与编写自己的 MapReduce SVM 之间存在天壤之别!即使在像 this 这样的优秀教程的帮助下.

我不知道哪个是更明智的选择,所以我的问题是:

A) 是否有一些我遗漏的有用的 Python 库?如果没有,你知道在不久的将来是否有任何有用的开发吗?

B) 如果以上问题的答案是否定的,那么我是否可以更好地花时间转而使用 Java?


评论关闭
IT源码网

微信公众号号:IT虾米 (左侧二维码扫一扫)欢迎添加!