• 热门专题

从数据集输出艺术家

作者:  发布日期:2016-03-07 20:38:20
Tag标签:艺术家  数据  
  • /***
     * @author YangXin
     * @info 从数据集输出艺术家
     * 为了生成Last.fm数据集的特征向量,我们部署两个MapReduce作业。
     * 第一个作业以词典的形式生成独立的艺术家列表,第二个作业利用生成的词典来产生向量。
     */
    package unitTwelve;
    
    import java.io.IOException;
    import java.util.regex.Pattern;
    
    import org.apache.hadoop.io.IntWritable;
    import org.apache.hadoop.io.LongWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Mapper;
    
    public class DictionaryMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
    	private Pattern splitter;
    	protected void map(LongWritable key, Text line, Context context) throws IOException, InterruptedException{
    		String[] fields = splitter.split(line.toString());
    		if(fields.length < 4){
    			context.getCounter("Map", "LinesWithErrors").increment(1);
    			return;
    		}
    		String artist = fields[1];
    		context.write(new Text(artist), new IntWritable(0));
    	}
    	
    	protected void setup(Context context) throws IOException, InterruptedException{
    		super.setup(context);
    		splitter = Pattern.compile("<sep>");
    	}
    }
    
About IT165 - 广告服务 - 隐私声明 - 版权申明 - 免责条款 - 网站地图 - 网友投稿 - 联系方式
本站内容来自于互联网,仅供用于网络技术学习,学习中请遵循相关法律法规