| pydoop API Python MapReduce e HDFS para Hadoop |
Baixe Agora |
pydoop Classificação e resumo
- Licença:
- The Apache License 2.0
- Nome do editor:
- Simone Leo, Gianluigi Zanetti and Luca Pireddu
pydoop Tag
pydoop Descrição
Pydoop é uma API Python MapReduce e HDFS para Hadoop. Construído como um invólucro em torno da API C ++, Pydoop permite que você desenvolva aplicativos de MapReduce full-fledge com acesso ao HDFS. Aqui está como você escreve um Python Básico WordCount com Pydoop: De Pydoop.pipes Import Mapper, Redutor, Fábrica, RuntaskClass WordCountMapper (Mapha): Def Map (self, contexto): palavras = contexto.getInputValue (). Split () para w Em palavras: context.emit (W, "1") Classe WordCountreducer (redutor): DEF Reduzir (auto, contexto): s = 0 enquanto context.NextValue (): S + = int (context.getinputvalue ()) contexto. emit (context.getinputkey (), str (s)) Runtask (fábrica (WordCountMapper, WordCountreducer)) ou, para tarefas simples, como a contagem de palavras, você pode experimentar a ferramenta PyDoop_script. Em seguida, seu código se tornaria: Def Mapper (k, texto, escritor): para palavra em texto.split (): escritor.emit (palavra, 1) Def redutor (palavra, contagem, escritor): escritor.emit (palavra, soma (Mapa (Int, Contagem))) Homepage do produto
pydoop Software Relacionado