１の補数と２の補数を取り違えていたせいで半日を浪費・・・

Haodop の可変長int型である VIntWritable クラスによって出力したバイナリデータをＣ言語で読み込むルーチンを作成したのですが、バイナリデータを数値に変換する際に、 VIntWritable は負数を２の補数でなく１の補数で出力していたことに気付かなかったため、微妙に数値が合わないという結果に陥り原因判明まで半日かかってしまいました。

当初作成したＣ言語でのソースコードは以下のようなものです。なお、Hadoop ソースコード中にあったコメント「１バイト目が -112 〜127 の場合はそのまま１バイト長のデータ、-113〜-120ならば正数、-121-128ならば負数」と手元のVIntWritable 出力結果を見て作成したため、負数をどのように表現するのかは気にせずに作成してしまいました。

/*  bufPointer に記録されている VIntWritable 型のバイナリデータを int 型に変換する *
 *    VIntSIze には値の記録に使用されていたバイト数が代入される                    */
int getVIntFromBinary(char *bufPointer, int *VIntSize){
	int i;
	int ret;
	int length;
	char *p = bufPointer;

	if(-112 <= p[0] && p[0] <= 127){
		// single byte value
		*VIntSize = 1;
		return (int)p[0];
	}

	if(-120 <= p[0] && p[0] <= -113){
		// + value
		length = -(p[0]+112);
		ret = 0;
		for(i=0; i<length; i++){
			ret = ret << 8;
			ret = ret | (p[i+1] & 0xFF);
		}
		*VIntSize = length + 1;
		return ret;
	}

	//if(-128 <= p[0] && p[0] <= -121)   not necessary
	{
		// - value
		length = -(p[0]+120);
		ret = 0;
		for(i=0; i<length; i++){
			ret = ret << 8;
			ret = ret | (p[i+1] & 0xFF);
		}
		*VIntSize = length + 1;
		return -1 ^ ret;   /* ここを -1 * ret と間違えていた */
	}
	return 0;	
}

最初は値に -1 をかける、つまり２の補数をとることで負数に変換していました。
それに対して、実際の Hadoop ソースコード（$HADOOP_HOME/common/src/java/org/apache/hadoop/io/WritableUtils.java）を確認したところ、負数を表現するために -1 をかけるのではなく、-1（16進数で FF FF FF FF）との排他的論理和（XOR)をとる、つまり１の補数を使用しています。
この違いのせいで変換後のデータが「１」だけずれてしまっており、なかなか原因を特定することができませんでした。

サブルーチンのテストをきちんとする、あるいは面倒くさがらずにソースコードをきちんと読んでおけば防げたミスでした・・・
なんとか今日中に解決できたのでよかったですが。

生物物理計算化学者の雛

主に科学に関する諸々を書き留めています。

１の補数と２の補数を取り違えていたせいで半日を浪費・・・