hirax.net::Keywords::「アルゴリズム」のブログ

トップページ"hirax.net" へ　/　サイトBlog "inside out" へ

「アルゴリズム」に関する最新記事　/　「アルゴリズム」に関する「説明」「記事の一覧」
より新しい5件の記事へ

1999-10-15[n年前へ]

■続々ACIIアートの秘密　

階調変換　その2

　前々回の

ASCIIアートの秘密 - 画像をASCII文字に変換するソフトを作ろう- (1999/09/05)

の時にASCIIアートに関する情報を探した

清竹's　テキスト絵　HPリンク集　(http://www2.nkansai.ne.jp/users/kiyo/ )

の清竹氏にQ02TEXT（Take氏作）のドキュメントの記述を教えて頂いた。引用してみると、

「限られた出力階調を有効に利用するため、画像の濃度ヒストグラムの補正を行ないます。1パス目で、濃度ヒストグラムをカウントし、そこからヒストグラムが平坦になるような濃度変換関数を生成します。（ヒストグラムを平坦にするのは、情報のエントロピーをなるべく保存するためです。）」

とある。Q02TEXTはimage2asciiと同様のテキストアート作成プログラムである。前回の

続ASCIIアートの秘密 - 階調変換　その1 -(1999.09.08)

の最後で(3).情報量を最大にするモデルというのを導入したが、これがそのエントロピー最大化アルゴリズムに近いものを導入してみたものである。何しろ、この考えを使っていくのは乏しい階調性の出力機器には非常に有効なのだ。今回は、この「エントロピー最大化アルゴリズム」について考えてみたい。

　Q02TEXTは「 .:|/(%YVO8D@0#$」の16階調を使用するテキストアート作成プログラムである。それに対して、「ASCIIアートの秘密」で作成したimage2asciiが使用可能な階調数は一定ではない。指定されたフォントを一旦出力してみて、その結果を計測することにより、出力可能な階調数を決定している。したがって、指定したフォントでしか階調の確かさは保証されない。その代わりに、指定されたフォントを使えば割に豊かな階調性を使用できることになる。
　また、得られる階調は一般的に滑らかではないので、Q02TEXTが使っているアルゴリズムとは少し違うものを導入している。

　通常ASCIIアートは色々な環境で見ることができるのがメリットの一つである。しかし、image2asciiはフォントを限定してしまっている。これは、目的が通常のASCIIアートとは異なるからである。私がimage2asciiを作った目的は、それを仮想的な出力デバイスとしてみたいからである。その出力で生じる様々な問題を調べたり、解決してみたいのである。

　さて、前回の最後に示した3種類の画像変換は

単純な階調重視モデル

オリジナルの0を出力画像の最小値に
オリジナルの255を出力画像の最大値にする

拡大した単純な階調重視モデル

オリジナルの最小値を出力画像の最小値に
オリジナルの最大値を出力画像の最大値にする

情報量を最大にするモデル

エントロピーを最大にするための階調変換を行う

というものである。

　これら3つの変換方法の違いにより出力画像にどのような違いが生じていたかを、まずはもう一度見てみる。まずは、オリジナル画像である。これは、「私の尊敬する」S大先生である。私は尊敬とともに「ロボコップSさん」あるいは、「ロボSさん」と呼ぶのだ。いや、本当に。

人物写真(ロボコップS氏)

　以下にオリジナル画像及びimage2asciiを用いて変換したものを示す。

オリジナルと変換後画像
オリジナル	(1)	(2)	(3)

これらの変換画像の感想(私の)は、

(1).単純な階調重視モデルが比較的白い個所では一番オリジナルに忠実な濃度であることはわかるだろう。ただし、黒い部分に関しての表現力は極めて低い。
(2).階調性を少しだけ改善したものではそれより視認性が改善している。
(3).視認度の高い画像ではあるが、オリジナルとは濃度などは異なる?

という感じだろうか。
　
　それでは、これらの画像のヒストグラムを調べてみる。先の「（ヒストグラムを平坦にするのは、情報のエントロピーをなるべく保存するためです。）」というのとの関係を調べたいわけである。

オリジナルと変換後画像のヒストグラム
オリジナル	(1)	(2)	(3)

ASCII ARTには濃度の表現領域には限度がある。そのため、(1),(2),(3)はいずれも濃度が最大を示す個所でもオリジナルよりかなり濃度が低い。また、(1),(2)はオリジナルとヒストグラムの形状も少しは「似ている」が、(3)においては、かなり異なっているのがわかると思う。(3)はヒストグラムの形状はかなり異なるにも関わらず、視認度は高くなっている。これが、エントロピーを最大化(すなわち情報量を最大化)しているおかげである。ヒストグラムがかなり平坦になっているのがわかるだろう。

　というならば、エントロピーの計算もしなければならないだろう。もちろんエントロピーと言えば、

ハードディスクのエントロピーは増大するか?- デフラグと突然変異の共通点 - (1999.03.28)

でも登場している。「エントロピーは増大するのみ...」というフレーズで有名なアレである。情報量を示す値だといっても良いだろう。せっかく、「ハードディスク...」の回で計算をしたのだから、今回もその計算を流用してエントロピーを計算してみたい。といっても、無記憶情報源(Zero-memorySource)モデルに基づけば、ヒストグラムが平坦すなわち各濃度の出現確率が等確率に近いほどエントロピーは高いのが当たり前であるが...

　この前作成したMathematicaのNotebookを流用するために、オリジナルと3つの変換画像を合体させる。そして、そのヒストグラムを見てみよう。このヒストグラムが非常にわかりにくいと思うので、一応説明しておく。あるY軸の値で水平に1ライン抽出して、その部分のヒストグラムを右のグラフに示しているのである。

あるY軸方向の断面におけるヒストグラム
オリジナルと3つの変換画像を合体させたもの	ヒストグラム(横軸=濃度,縦軸=走査軸)

　例えば、オリジナルの画像では髪の毛がある辺り(Y軸で10から30位)では、ヒストグラムを見ればレベルが50位の黒い所が多いところがわかる。それに対して、変換後の画像では、一番濃度の高い所でも150前後であることがわかるだろう。

　それでは、それぞれ、Y軸でスライスしてその断面におけるエントロピーを計算したものを次に示してみる。

それぞれのY軸スライス断面におけるエントロピー
オリジナルと3つの変換画像を合体させたもの	エントロピー(縦軸=走査軸)

本来は、画像全面におけるエントロピーを計算するのが、望ましい。しかし、ここで使っているような、Y軸でスライスしてその断面におけるエントロピーでも、オリジナルの画像が一番エントロピーが高く、(3)の変換画像(つまり一番上)のものが次にエントロピーが高いのがわかると思う。つまり、情報量が高いのである。

　エントロピー量とあなたの感じる「視認度」とが相関があるかどうかは非常に興味があるところだ(私にとって)。エントロピーが多くても(すなわち情報量が多くても)オレはちっともいいと思わないよ、とか、おれは断然エントロピー派だね、とか色々な意見があったらぜひ私まで教えてほしい。

　「お遊び」に見えるASCIIアートも、調べていくと実は奥が深いのだなぁ、とつくづく思う。といっても、もちろん本WEBはお遊びである。なかなか、奥までは辿りつかない(し、辿りつけない)と思うが、この「ASCIIアートの秘密」シリーズはまだまだ続くのである。

この記事の「関連お勧め記事」を読む >>

2000-01-03[n年前へ]

■音場の定位を見てみたい　

立体音感を考える　その2

　前回(といっても間に他の話も挟まっているのだが)、

立体音感を考える - バーチャルサウンドソフトウェアを作ってみよう- (1999.12.06)

で「音の立体感」について考え始めた。今回はその続きである。「音の立体感」を考えるための道具を作る準備をしてみたい。

　色々なことを考えるには、その目的にあった測定器が必要である。何か新しいことをしようと思ったら、そのための新しい測定器を作成しなければならない(と思うだけだが)。そして、何より私は計測器なんてほとんど持っていない。だからといって、計測器を買うお金があるわけではない。というわけで、困ってしまうのだ。

　そこで、立体音感を考えるための測定器を作っていくことにした。といっても、すぐにできるとも思えないので、色々実験をしながらボチボチとやってみることにした。勉強がてら、ボチボチやってみるのである。オーディオ関連のことにはかなり疎いので勉強にはちょうど良いだろう。

　資料をいくつか眺めてみたが、特に

「立体視の不思議を探る」　井上　弘著　オプトロニクス社

の中に簡単に音の立体感に関する因子が簡単にまとめられている。それは

音像定位の因子

両耳差因子 (音響信号)

音の強さ(振幅)の差
位相の差

周波数スペクトル因子

というものである。今回はこの中の「音の強さ(振幅)の差」というものに注目してみることにした。よくある2スピーカ方式の「音の立体感」を考えるとき一番メジャーである、と思うからだ。左のスピーカーと右のスピーカーから聞こえる音の大きさが違う、というヤツである。

　そこで、いきなりだが今回作成した解析ソフト「音場くん一号」のアルゴリズムは以下のようになる。

PCのサウンド入力から、サンプリング周波数 22.05kHz、Stereo 各チャンネル8bitで取り込みを行う。
取り込んだデータを4096点毎にウィンドウ(Hamming or無し)処理をかける。
高速フーリエ変換(FFT)を行う
FFTの結果の実部について、左右のチャンネルの差分を計算する

　このようにすることで、各周波数成分それぞれについて、左と右のチャンネルに記録されている「音の大きさ(音圧)」の差がわかるといいな、と考えたのである。

　次に示すのが、「音場くん(仮名)一号」の動作画面である。「音場くん(仮名)一号」の画面構成は、

右側->制御部
左側->計測データ表示部

である。そして、左側の計測データ表示部は上から、

音声波形データ(赤=左、緑=右)
周波数(横軸)vs左右での音圧の差(縦軸)
時間(横軸)vs周波数(縦軸)vs左右での音圧の差(色)

となっている。ちなみに下の画面は種ともこの「うれしいひとこと」の中から、「安売り水着を結局買ったアタシの歌」のイントロ部を計測したものだ。

「音場くん(仮名)一号」の画面
「安売り水着を結局買ったアタシの歌」イントロ部
(黒字に赤、緑の色構成は変更の予定)

　計測データ表示部の拡大図を下に示す。

音声波形データ(赤=左、緑=右)
周波数(横軸)vs左右での音圧の差(縦軸)
時間(横軸)vs周波数(縦軸)vs左右での音圧の差(色)

というのが判るだろうか？かなりわかりにくい表示系であるのが残念だ。また、色もみにくい表示色になっていると思うので、近く変更する予定である。

　この表示計の意味を例を挙げて説明したい。例えば、下の画面では左の方に定位している音が鳴ったときの状態を示している。一番上の音声波形データでは緑(右)の波形は小さいのに対して、赤(左)の大きな波形が見えている。
　また、真ん中の「周波数(横軸)vs左右での音圧の差(縦軸)」では横軸100(任意単位)程度の高さの辺りで左チャンネルに位置する音が発生しているのがわかる。
　また、一番下の「時間(横軸)vs周波数(縦軸)vs左右での音圧の差(色)」では時間的に一番最後(横軸で右側)の方の横軸560、縦軸100位の位置に白い(すなわち左チャンネルに定位する)音が発生しているのがわかると思う。

「音場くん(仮名)一号」の画面の拡大図
「安売り水着を結局買ったアタシの歌」イントロ部

　この曲のイントロでは、「ポンッ」という音が高さを変えつつ、左右にパンニング(定位位置を変化させること)する。
　一番下の「時間(横軸)vs周波数(縦軸)vs左右での音圧の差(色)」を示したグラフ中で白・黄色(左に定位)と青・黒(右に定位)する音が時間的にずれながら現れているのが判ると思う。

　このようにして、この「音場くん(仮名)一号」では音の定位状態についての「極めて大雑把な」計測が可能である(保証はしないけど)。「音場くん(仮名)一号」を使った他の例を示してみる。

　下は種ともこの「O・HA・YO」の中から「The Morning Dew」のイントロ部を示したものだ。

左(白・黄)チャンネル方向に定位するピアノ
右(黒・青)チャンネル方向に定位するガットギター

がつくる旋律が絡み合っているのがわかると思う。

「The Morning Dew」のイントロ部での
「時間(横軸)vs周波数(縦軸)vs左右での音圧の差(色)」
を示したもの

　これはまるでオルゴールのピンを見ているようだ。あるいは、シーケンサーや昔の自動演奏ピアノのロール譜のようである。対位法などの効果をこれで確認したくなってしまう。

　さて、ここまでの例は楽器も少なく、比較的自然な定位状態であった。しかし、以下に示すような場合には不自然なくらいの「音の壁」状態の場合である。かなり状態が異なる場合だ。

「KI・REI」のラストのラストコーラス部での
「時間(横軸)vs周波数(縦軸)vs左右での音圧の差(色)」
を示したもの

　これは、種ともこの「O・HA・YO」の中から「KI・REI」のラストのラストコーラス部を示したものである。人のコーラスが重なり合っていく部分である。色々な高さの声が重なり合っていく様子がわかるだろう。
　ところが、このグラフをよくみると、同じ音が時間的に持続しているにも関わらず、時間毎に定位位置が左右で入れ替わっているのがわかる。

　これはきっとエフェクターで言うところのコーラスなどをかけたせいだろう(素人判断だけど)。人工的にフィルタ処理をしているためにこのようになるのだろう。こういう結果を見ると、「音場くん(仮名)一号」をプログレ系の音の壁を解析してみたくなる。

　さて今回は、音声の定位状態を解析する「音場くん(仮名)一号」を作成し、いくつかの音楽に対して使ってみた。まだまだ「音場くん(仮名)一号」は作成途中である。これから続く立体音感シリーズとともに「音場くん(仮名)」も成長していく予定である。

　さて、一番先の画面中に"Re"という選択肢があるのがわかると思う。もちろん、これと対になるのは"Im"である。FFTをかけた結果の"実部"と"虚部"である。"実部"の方が左右の耳の間での音の大きさの違いを示すのに対して、"虚部"の方は左右の耳の間での位相差を示すものだ。つまり、ある周波数の音が左右の耳の間でどのような位相差を示すものか、測定しようとするものである。

　左右の耳に対する音の位相差というものは、立体音感を考える上では避けては通れないのだろう。しかし、位相差を処理しようとすると、どうしたらいいものかかなり迷う部分がある。また、今回のようなFFT処理をかけたときに得られる位相を用いて良いものかどうかもよくわからない。というわけで、今回は位相解析処理は後回し、ということにした。

この記事の「関連お勧め記事」を読む >>

2001-08-07[n年前へ]

■「ボケ」た背景で包み込め　

デジカメ画像をキレイにボカそうアルゴリズム編

　最近、新しいデジカメを物色中である。私はこれまではFinePix4700zを使っていたのだけど、そのFinePixが半年程度で壊れてしまった。というわけで、C-4040ZOOMがどんなものか期待しているところである。

　壊れたFinePixと言えば、そもそも壊れたFinePixは一台ではなかった。私はすでにFinePixを二台も買っているのだ。そして、もうすでに二台とも壊れてしまっているのである。連続殺人事件ならぬ、連続カメラ自殺事件なのである。

　まず、一台目に買ったFinePix700ははメキシコのティファナでポケットから落としたら、バッテリーから電源が供給されなくなった。もちろん、ACアダプターを使えば立派に動くのだけれど、それでは少しばかり機動性に欠けてしまう。まさか発電機を持ち歩くわけにはいかないし、コンセントの近くでしか撮影することができないとなると、それは非常に困ってしまう。そこで、すかさず二代目としてFinePix4700zを私は買った。ところが、買ってから半年位たったある日、今度は勤務先の駐車場でポケットから落としてしまった。すると、今度はファインダー視野がズームに連動しなくなって、なおかつレンズがまるでジョイスティックのようにあらゆる方向に曲がるようになってしまった。

　こんな風にデジカメはとっても壊れやすくて、半年毎にデジカメ出費を強いられる私に周囲は「落としたオマエが悪い」と非常に冷たいのである。残念なのだ。「そういうのは壊れたんじゃなくて、壊したんだ」と被害者である私をまるで加害者のように告発する人さえいるのである。連続カメラ自殺事件は実は他殺で、しかも犯人は私だと告発する輩さえいるのだ。ひどい話である。

　ところで、C-4040に期待しているのは、コンパクトで、レンズアダプターが使えて、レンズがF1.8と明るいことなのである。コンパクトなのは持ち歩くために必要だし、私はなんと言っても超広角デジカメが欲しいのだが、そんなデジカメはないので、ワイドコンバーターを付けたいのでレンズアダプターが必要なのである。明るいレンズの方は、うす暗い中でも撮影する時に重宝しそうなので、少し期待しているのである。

　ところで、この位明るいレンズであれば、もう少しぼかすことができるものだろうか？デジカメで写真を撮ってもどうしてもボケない。35mmフィルムを使っているカメラなどと比べるともう全然ボケない。もうほんとにボケない。

　例えば、35mmカメラで135mm F4.5開放のレンズなら、ピントの合ってない背景はこの位はボケる。これは京都の哲学の道近くにある吉田山で撮った写真だ。

35mmカメラで撮影した例 135mm F4.5?

　ピントが合っている位置以外は光がボケて、キレイなボケが発生する。どちらの写真も絞りは開放で撮影しているので、後ろの風景はほぼ丸くボケている。ぼかせばキレイというわけではないけれど、背景などがごちゃごちゃしている中で対象物だけを浮き上がらせたい場合には、「ボケ」させるととても良い感じになる。

　しかし、デジカメではそうそう簡単にボケた画像を撮影することはできない。35mmフィルムに比べて、CCDサイズが小さいからである。35mmカメラよりAPSカメラはもっとぼけなくて、それよりデジカメはさらにボケないのである。そんな様子を見るために、二台目として買ったFinePix4700zで「ボケ」を意識して撮影してみたものが下の写真である。手前の植物にピントが合って、奥の道の先はボケてはいるのだけれど、それでも先程の写真などとは比べものにならないほどわずかしかボケていない。

在りし日のFinePix4700zで「ボケ」を意識して撮影してみた写真
（昼過ぎの箱根山中で）

　ところで、このような画像の「ボケ」を考えるとき、「ボケ」た画像をシャープに復元しようという話は非常にポピュラーな話題である。例えば、本「できるかな?」でもこれまでに

といった感じで遊んできた。また、さらには「恋の形」を復元しようとした

とか、このようなアプローチを遥か昔に考えていた漱石の「文学論」

「文学論」と光学系　- 漱石の面白さ-(2000.02.27)

を振り返ってみたりしたきたのである。しかし、これらはいずれも「ボケたデータを復元する」という問題であった。

　一方、この逆のアプローチである「シャープなデータをボケたデータにする」という問題も結構ポピュラーである。例えば、音楽をホールやライブハウス風にボケた音にするDSPはかなりの数のオーディオ装置に付けられている。これも、もともとはシャープな音声データが部屋の中でボケていく様子をシミュレートする回路である。また、画像に関する話題でも、ピント位置をずらした複数の画像から任意の「ボケ」画像を作成するといった話題もたまに見かける。

　そこで、「できるかな?」でもデジカメ画像を35mmカメラ風にキレイにぼかすことに挑戦してみることにした。今回は、まずはアルゴリズムを確認して、次回以降で簡単プログラムを作成してみることにしたい。

　まずは、似たようなソフトウェアがあるかどうか、Googleで適当なキーワードを使って検索をかけてみると、IrisFilter(http://www.reiji.net/iris/)というソフトウェアがあった。これは、「写真のぴんぼけを再現する」というフィルターだった。サンプル写真などを見てみると、これがなかなかきれいだった。例えば、早朝の御殿場の路上を「在りし日のFinePix4700z」で撮影した写真にこのフィルタをかけて、「ボケ」を加えてみたのが下の画像である。

Iris Filterでデジカメ画像を「ボケ」させたもの
オリジナル画像	Iris Filterで処理したもの

　ここではこんな六角形の絞り形状をを用いてみた。右の処理画像中の、車のテールランプや車の下部を眺めてみると、鋭いハイライト部が六角形に光っているのがわかだろう。確かに、「ボケ」がカメラの絞り形状になっていて、良い感じである。

　WEBページの記載によれば、このIris Filterは「フィルム特性曲線を利用し、レンズから通った光がフィルムを感光させる様子を再現しています」ということである。なんでも、特許も国内・USP共に出願済みということだが、特願2000-100042もU.S.PTO 09/772532も未だ公開にはなっていないようで、残念ながら特許の内容を読むことはできなない。

　このWEBページの記述の中で面白いのは、「データ上の数値をそのまま拡散させる従来のPhotoshopをはじめとした画像処理ソフトと違い、実際のフィルムに当たる光の量(露光量)を逆算し、その露光量をもってピントがずれている様子を再現します」という歌い文句でPhotoshopの「ガウスぼかし」と比較広告してある部分である。

　試しに、先の画像をIris Filterで「ボケ」を加えた画像と、Photoshopの「ガウスぼかし」とで「ボケ」を加えた画像を比較してみると、下の二枚の画像のようになる。確かにIrisFilterの売り文句通り、こうして比較してみるとPhotoshopガウスぼかしが写真の「ボケ」っぽくないのに対して、IrisFilterの「ボケ」が写真のそれっぽいことが良くわかる。

Iris Filterの処理画像（左）とPhotoshop ガウスぼかしで処理した画像（右）の比較
Iris Filterで処理したもの	Photoshop ガウスぼかしで処理したもの

　さて、お仕着せのソフトを使ってみるだけではなくて、自分でデジカメ画像をキレイに「ボケ」させてみることにしたい。というわけで、hirax.net風「ボケ」フィルターの動作を考えてみる。

　まずは、毎度のことだがオリジナル画像が「ボケ」る様子を計算する式は

逆フーリエ変換( フーリエ変換( オリジナル画像 ) x フーリエ変換(ボケ具合 ) )

と表すことができる。詳しくは、「宇宙人はどこにいる?」の回でも読んでもらうことにして、簡単に言えば周波数領域でオリジナル画像とボケ具合を掛け算をしさえすれば良いのである。つまり、今回のデジカメ画像をぼかす場合だったら、

デジカメ画像と「ボケ」具合をそれぞれフーリエ変換し周波数空間に変換
周波数空間で乗算を行う
逆フーリエ変換して実空間に戻す

とハイ!「ボケ」画像の出来上がり、というわけである。ボケ具合が小さい場合などは、このやり方よりもずっと計算量の小さいやり方はあるわけだけれど、とりあえずこのやり方はとても単純明解なので今回のように試しでやってみるにはとっても楽な方法なのである。また、ここでいうボケ具合というのは、こんな

形状の「ボケ」具合のことである。

　じゃぁ、早速やってみようとなるわけだが、その前にもう一つ注意することがある。それは、RGB画像の数値というものは実は元々「明るさを対数変換した値」であるということなのである。人間の目も含めて世の中の大抵の材料は対数的な感度を持っている。例えば、人間の目に「2倍明るい」という場合に、光は「2倍明るい」というわけではない。その場合には指数的にX^2倍明るいのである（ここで、xの値はそれぞれのデバイスによって色々と違う）。その明るさをRGB画像の数値データにする時に、明るさの対数をとってLog[x,X^2]で2という数値として表しているわけだ。

　RGB画像の数値が「明るさを対数変換した値」だというようすの一例を示すと下の図のようになる。

RGB画像の数値というものは実は元々「明るさを対数変換した値」である
片対数軸で表した横軸 = 0〜255の数値データ縦軸 = エネルギー	線形軸で表した横軸 = 0〜255の数値データ縦軸 = エネルギー

　逆に明るさからRGB画像の数値データへの変換グラフは例えばこんな感じである。RGB数値で200と255と言っても実はその明るさは大違いであることがわかると思う。

　だから、この手の処理を行う際には、まずは指数変換してから処理を行い、そしてその後対数変換してやらなければならないわけだ。もちろん、今回のデジカメ画像をぼかす場合にも、RGB画像の数値をまずは指数変換した後、「ボケ」演算を行って、その演算結果を対数変換でRGB画像の数値に戻してやらなければならないのである。といっても、別に難しい話ではなくて画像を扱う装置だとごく当り前の話だ。

　そう、「ボケ」演算のhirax.net風レシピはたったこれだけ〜というわけで、早速このレシピに従ってhirax.net風デジカメ「ボケ」フィルターをかけてみたのが下の画像である。キレイな「ボケ」画像ができあがっていることが判ると思う。

hirax.net風デジカメ「ボケ」フィルター
キレイな「ボケ」画像のできあがり〜

　ところで、デジカメ画像のRGB画像の数値を指数変換したものに「ボケ」演算を行ったわけだけれど、もしRGB画像の数値そのものに対して「ボケ」演算を行ったら、どんな結果になるだろうか？つまり、「データ上の数値をそのまま拡散させる」やり方をしたら、どうなるのだろうか？そこで、試しにRGB画像の数値そのものに対して「ボケ」演算を行ってみるとこんな結果になる。

RGB画像の数値そのものに対して「ボケ」演算を行ってみた結果
キレイじゃない…

　何だかボンヤリとにじんだだけの「キレイじゃない」写真になってしまっている。それは、当り前である。本来2倍明るいものはX^2倍明るいわけで、すごく光の量は2倍どころでなく多いわけだ。それが広がる量を仮にRGB数値そのまま2倍として扱ってしまうと、その光の部分は薄暗くなってしまう。コントラストのはっきりしない、ぼんやりとした写真になってしまうわけだ。ちゃんと、X^2倍のデータとして扱ってやらなければならないわけである。

試しに、指数処理したものと線形処理をしたものとを並べてみるとその画像の違いがよくわかるだろう。

指数処理した画像（左）と線形処理をした画像（右）の比較
hirax.netレシピのキレイなボケ画像（指数処理）	キレイじゃないボケ画像（線形処理）

　さて、今回はデジカメ画像の「ボケ」フィルターのhirax.net風レシピを確認してみた。次回（と言ってもいつになるか…）以降に、このレシピに従って実際にソフトを作成していこうと思う。

　ところで、「文学論」の中で漱石は「ボケ」は焦点的印象又は観念に付随する情緒を意味する、と言っている。それは、言い換えれば「何かの出来事をきっかけとして感じた怒り・悲しみ・喜びなどの感情がボケである」ということだ。そして、さらに言えば、写真で背景をぼかすということは、つまり「背景にある出来事が生みだした怒り・悲しみ・喜びを広く混ぜて包み込む」ということなのである。

　だから、何かを撮影する時に対象物の背景をぼかすということは、「背景にある出来事が生みだした怒り・悲しみ・喜びを広く混ぜて対象物を包み込んで、そして対象物を浮き上がらせる」ということなのかなぁ、とぼんやりと考えてみたりする。そんな写真は対象物を写しこんでいるのと同時に、それを包みこむ背景も写しこんでいるンだろうなぁ、と考えてみたりする。

この記事の「関連お勧め記事」を読む >>

2002-01-08[n年前へ]

■オッパイ星人の力学　禁断の最終兵器編　

ステレオ写真で巨乳ビジョン

　元旦を実家のこたつで迎えていると、母に「オマエも最近はやっとマトモな話を書くようになってくれたわね」と言われた。そう、最近確かにできるかな?では「私と二度めに出会う水」「サンタが街にやってくる」「あなたと見たい、流星群」と、書いてるワタシが自分で言うのも何だがきれいな話が続いていたように思う。

　しかし、それだけではマズイのである。砂糖だけでも塩だけでも料理はマズイのと同じように、何事も同じようなもの一つだけではマズイのである。そう考えるワタシはこれまでも、「ブランコを揺らす子供の動き」をメルヘンに考えてみる一方で、同じく「Gカップバストを揺らす女性の胸の動き」を考えてみたりしてきた。そして、結局のところ、その両方ともが純真でピュア〜で素晴らしいものなのだぁ、と主張してきたわけである。だから、いかにもきれいな話が続くのはマズイのである。それはいかにもマズイのである。

　というわけで、2002年新春第一号は最近の話からちょっとズラして、これまで封印していた「オッパイ星人との戦い秘話」を書いてみたいと思う。

　いつでも、正義の味方は人知れず戦い続ける。年末も年始も関係なく、地球を守るために日夜戦い続ける、それが正義の味方だ。…ワタシも周知の通り、日夜オッパイ星人と戦い続けている。これまでのワタシの戦記録は「オッパイ星人胸のヤング率編、揺れる胸の動き編、パラメータ励振編、バスト曲線方程式編、仏の手にも煩悩編、あなたのオッパイ星人度編、求む未来のヒロイン編」と橋田壽賀子ドラマ「渡る世間は鬼ばかり」も真っ青の大河ドラマになりつつある。

　とはいえ、以前も嘆いたようにオッパイ星人と戦うワタシの戦術はもっぱら専守防衛ただひとつである。何とかの一つ覚えのように専守防衛のみだったのである。それどころか、最近では単なる対オッパイ星人バトルの「自主学習」という状況にすらなりつつある今日この頃なのだ。

　何しろ、オッパイ星人と地球人の見かけ上何の違いもなく、違いと言えばただ一つ「オッパイ星人達の目は女性のバスト（巨乳の場合多し）にロックインしている」ということだけなのである。となれば、オッパイ星人を見つけるためには、彼らが引き寄せられるような「巨乳トラップ」を用意して、「おとり捜査」を仕掛けるような戦術をとるしかないわけであるが、それも協力者の申し出が皆無であるため、孤独なワタシはそんな戦術は実行することができなかった。そのため、そんなワタシの戦術はもっぱら専守防衛（と自主学習）のみ、という日本が誇る自衛隊= セルフ・ディフェンス・フォースと完全に同じ状態だったのである。

　しかし、近年ではそんな自衛隊、ワタシと同じく長く専守防衛を謳ってきた自衛隊でさえも、専守防衛と言う割には色々なところへ出かけていったり、さまざまな強力なフォースを持つに至っている。先日も、イージス艦をどこぞに派遣するしないで、世間をにぎわせていたばかりである。オッパイ星人と孤独な戦いを続けるワタシとはエライ違いなのである。

　しかし、実はワタシも自衛隊のイージス艦ではないのだが、オッパイ星人の魔の手から地球を救うためにとある強力兵器を開発したことがある。それが、この「巨乳ビジョン」である。

巨乳ビジョン
（完成予想図）

　とはいえ、上の写真下部に（完成予想図）としてあることでも判るように、この強力兵器「巨乳ビジョン」はプロトタイプまでは作成したのであるが、量産するまでには至らなかった。いや、量産するどころではなくて、ワタシはこの「巨乳ビジョン」を実は封印してきたのである。今回はこの「巨乳ビジョン」がいかなる兵器であるかを説明すると共に、何故この強力兵器が封印されるに至ったかを書いていくことにしたい。

　そもそも、この「巨乳ビジョン」の開発の目的は「オッパイ星人に狙われそうな可哀相な子羊（巨乳）」をいち早く見つけだし、助け出すことにあった。実に不思議なことに、オッパイ星人達は何故か人目バストに目を走らせたならば、その大きさ・形状を把握するという~~うらやましい~~おぞましい能力を持っている。しかし、~~残念ながら~~幸運なことにオッパイ星人でないワタシはそのような能力を持ち合わせていないのである。だから、どうしても街中を歩く女性達の中から、オッパイ星人に狙われそうなバストを見分けることができなかったのだ。そこで、こんな状況を打ち破るために、ある日ワタシは考えた。ワタシも「見たバストの大きさ・形状を把握するような武器」を使えば、強力なオッパイ星人達と互角に戦うことができて、この哀しき専守防衛アンド自主学習状態から脱出できるのではないだろうか、と。

　であれば、一体「見たバストの大きさ・形状を把握する」ためにはどのようにすれば良いのだろうか？　もちろん、触ってみるなんてのは問題外だ。シャイなジェントルマンのワタシとしてはそんな不埒なまねはできないのである。　やはり、ここはhirax.netが得意とする画像処理技術を悪用有効活用すべきではなかろうか、とワタシは考えたのである。というわけで、ワタシは両眼視差を利用して、バストの立体情報を計算・再構成し、「一目見ただけでバストの大きさ・形状を把握する巨乳ビジョン」を作成してみることにしたのである。

　そもそも、人間は両目で見ている画像の差を利用して、奥行き情報を知るわけであるが、このような処理を画像処理で行う技術は通常ステレオマッチング技術などと呼ばれる。であれば、二つのカメラを角度を変えて配置し、そのカメラで撮影した二つの画像からステレオマッチング法を用いて奥行き情報を再構成してやれば、平面画像中の大きさ・高さなどを画像処理技術により知ることができるのである。というわけで、二つの画像からバストの高さ・形状を計算・再構成してやって、「オッパイ星人に狙われそうな可哀相な子羊（巨乳）」を見つけだそうという武器がこの「巨乳ビジョン」なのである。

　その「巨乳ビジョン」の効果をまずは例をとりながら説明してみたい。まずは、以前「もう一つの目から眺めた世界/a>vでは、hirax.net式「平面画像立体化法」を使って、平面画像を立体化してみた。その立体画像から、奥行き情報を知ることができるだろうか？

　何より最初に、平行法でこの二つの図形を眺めてみよう。青い四角が視点に近くせり上がってきて、緑の円はほんの少しだけ背景から浮かび上がっているのが見えるだろうか？

例えば、こんな立体配置は？
（平行法）

　それでは、この二つの画像を巨乳ビジョンを使って解析してみよう。ステレオマッチングにより画像の奥行き・高さ情報を計算するソフトウェアは色々とあるが、ZitnickkKanade氏らによるCooperative Stereo VisionアルゴリズムによるZK Stereoというアプリケーションもその一つである。わが「巨乳ビジョン」では、このZKStereoを使って上の二枚の画像から奥行き情報を計算している。その計算結果が例えば次のグラフである。このグラフ中では視点に近いほど高く描かれ（色は濃く）、視点から遠いほど低く（色は薄く）描かれている。

Cooperative Stereo Visionアルゴリズムを用いて
奥行き情報を計算してみたもの
このグラフでは近い = 高い（色 = 濃い）遠い = 低い（色 = 薄い）

　このグラフを眺めてみれば、青い四角が背景よりずいぶんとせり上がっていて、私たちの視点にとても近いようすがよく判ると思う。また、緑の円も若干だけ背景から浮かび上がっているようすも明瞭にはっきりと浮かび上がっている。

　というわけで、「巨乳ビジョン」は平面画像から奥行き情報を再構成できることを確認した上で、問題のバスト画像で確認してみたい。サンプル画像として、"3DFeminine Photo Gallery"というページ中にあった画像を縮小したものを用い、先程と同じようにCooperativeStereo Visionアルゴリズムによりにより、奥行き情報を再構成してみたものが次のグラフになる。

女性のバスト写真二枚から
Cooperative Stereo Visionアルゴリズムにより
奥行き情報を再構成してみたもの

　見事に「二つの胸のふくらみ」（C.魔女っ子メグちゃん）が浮かび上がるのだ。思わず、シャランラシャランラヘイヘヘイと歌いたくなるほどである。このように、二枚の角度が異なる画像さえあれば、この「巨乳ビジョンは」バストの大きさが判るのである。

　しかも、このバストの高さグラフにオリジナルの写真をマッピングしてみたりなんかすると、もう大変である。リアリティ満点で色んな角度からグリグリ眺めたりすることすらできるのである。カップのサイズも寄せて上げているようすもぜ〜んぶ知ることができるのである。

　…し・しかし、である。これはあまりに強力すぎるのである。あまりにこの「巨乳ビジョン」はスゴすぎてシャレにならないのだ。この「巨乳ビジョン」が量産された日には、邪な心を持つヤカラによって悪用されかねないし、善良な心を持つものであっても、全てオッパイ星人扱いされかねないのである。

　例えば、こんな風に巨乳ビジョンを装着した地球人でさえ、何かちょっとスケベなオッパイ星人にしか思えなかったりするに違いないのだ。恐るべし、巨乳ビジョンなのである。と・とはいえ、やはりこれでは正義の味方の武器としては使いものにはならない。これでは、絶対に悪用されて正義の武器どころか悪の象徴となってしまうかもしれないのだ…。

巨乳ビジョンを装着した地球人
彼は今何を考えているのだろうか? そして、彼の手つきが意味するものは!?

　ワタシと同じく、専守防衛仲間だったハズの自衛隊のイージス艦の名前の由来は、ギリシャ神話の最高神ゼウスの娘が持つ「全ての邪悪を払う盾」イージスである。そのイージスの盾には、見るもの全てを石に変えるメデューサの首がはめ込まれている。
　イージスの楯はメデューサの首により見るもの全てを石に変えるが、この「巨乳ビジョン」は見るバスト全ての形を明らかにしてしまい、そして、見るもの全てをオッパイ星人に変えてしまうのである。あぁ、恐ろしきかな「巨乳ビジョン」…。哀しきかな、「巨乳ビジョン」…。

　というわけで、ワタシはこのあまりに危険な最終兵器「巨乳ビジョン」を封印することにし、武器を捨てて街へ出て、改めてワタシの素手で「オッパイ星人に狙われそうな可哀相な子羊（巨乳）」達を見つけだし救おうと誓ったのであった。

この記事の「関連お勧め記事」を読む >>

2002-02-18[n年前へ]

■「非線形処理＋畳み込み処理」の公知資料　

　特開2001-216513を出願した方からメールをもらった。「自然対数を使う数式自体は昔からあるとは思いますが、画像処理ソフトで、この計算を使ってピンボケを作り出すソフトまたはそのアルゴリズムが存在したのかご存じないでしょうか。」ということだった。
　「非線形処理＋畳み込み処理」はおそらく公知資料があるのではないか、ただし、非線形処理と畳み込み処理のいずれもが実装されたソフトは昔から多々あるが、それをワンアクションで実装したソフトは無いかもしれない、と返事を出した。また、「ところで、私自身は特許はあまり好きではないです。といっても、個人としてはですけど。それに、特許を申請するＸＸさんの考えも良く理解できます。」と書いた。で、メールの最後に
　「それで、少し知りたいのですが、私は自分で作ったプラグインなどもいつもそうしているように何かの話のネタを作って、ソフト自体はフリーで配布すると思います。で、私以外にも自分で画像処理やプログラミングをしている人は多いので、そんなこともあるだろう、と思いますが、そういうときにＸＸさんはどうされるつもりでしょうか？」
　と書いた。それへの返事は来ていないが、もう少し調べてみた。構成としては、特開平08-241407や特開平09-130609が近いか。で、昔に遡れば公知資料もあるかしらん。しかし、特許調査で公知資料探しなんてまるで仕事みたいでイヤだな。
SUB 画像ボケが「非線形変換→畳み込み→非線形」で表されるとの記述は昔の教科書に載ってた。SUB 特開平09-181966畳み込みでボケ味を出す、複数画像を撮影することで任意の距離のボケを実現。 by オリンパスSUB 特開平09-130609等LUT→ローパスフィルター→LUTで画像ボケ信号を作成 by 富士写真フィルムSUB 特開平07-200817フィルタリングによりボケ画像を作成するダイキン工業SUB 特願平09-542474対数変換をした上で畳み込みを行う画像変換サイエンスアンドテクノロジーSUB 特開平08-285726畳込みによるカメラなどの光学系シミュレーションホーヤSUB 特開平08-241407非線形変換→畳み込み→非線形変換の画像変換 IBMSUB 特開2000-20691非線形変換＋デコンボリューションによるぼけ復元、背景の説明中に、非線形変換＋畳み込みによるボケ計算を説明キヤノン

この記事の「関連お勧め記事」を読む >>

最新の「アルゴリズム」に関する記事へより新しい5件の記事へ

>>「アルゴリズム」に関する「説明」「記事の一覧」

■Powered by yagm.net

このページ上部へ

hirax.net::Keywords::「アルゴリズム」のブログ

1999-10-15[n年前へ]

■続々ACIIアートの秘密

階調変換 その2

2000-01-03[n年前へ]

■音場の定位を見てみたい

立体音感を考える その2

2001-08-07[n年前へ]

■「ボケ」た背景で包み込め

デジカメ画像をキレイにボカそう アルゴリズム編

2002-01-08[n年前へ]

■オッパイ星人の力学 禁断の最終兵器編

ステレオ写真で巨乳ビジョン

2002-02-18[n年前へ]

■「非線形処理＋畳み込み処理」の公知資料

■続々ACIIアートの秘密　

階調変換　その2

■音場の定位を見てみたい　

立体音感を考える　その2

■「ボケ」た背景で包み込め　

デジカメ画像をキレイにボカそうアルゴリズム編

■オッパイ星人の力学　禁断の最終兵器編　

■「非線形処理＋畳み込み処理」の公知資料