Toto je obľúbená otázka pre študentov počítačového videnia, pretože dobre demonštruje, ako funguje hĺbkové videnie. Dôvod, prečo majú živé bytosti najmenej dve oči je, že je to najmenší počet ktorý umožňuje z obrazov premietnutých na sietnice získať informácie o hĺbke, teda o vzdialenosti. Toto je veľmi dôležitá informácia pre predátorov, pretože lovec potrebuje presne určiť pozíciu a vzdialenosť svojej koristi. Preto majú mäsožravce oči zväčša umiestnené na prednej strane tváre a blízko seba. Naproti tomu je pre bylinožravcov dôležitejšie mať široký uhoľ pohľadu, aby mohli včas rozpoznať nebezpečenstvo - preto majú často oči umiestnené po stranách lebky. Poďme sa však pozrieť bližšie na to ako sa také informácie o hĺbke získavajú.
Skúste si spraviť doma experiment - vystrite palec na pravej ruke a umiestnite ho vo vašom zornom poli blízko nosa. Následne striedavo zakrývajte pravé a ľavé oko. Pri pohľade z každého oka sa vám bude javiť pozícia palca rozdielna. Teraz ruku s vystretým palcom vyrovnajte a znovu striedavo prikrývajte ľavé a pravé oko. Palec bude znovu na rozdielnych miestach, avšak rozdiely už zďaleka nebudú také zjavné. Tento efekt sa nazýva disparita a je založený na tom, že obraz, ktorý vníma každé oko je iný (pretože každé oko má inú polohu). Čím je objekt k pozorovateľovi bližšie, tým je jeho pozícia pre obe oči rozdielnejšia a čim je ďalej, tým sa obom očiam javí jeho umiestnenie podobnejšie. My však bežne tieto rozdiely nevnímame, pretože náš mozog spája obe obrazy do jedného. A práve z porovnania rozdielnosti v obrazoch od oboch očí určuje vzdialenosť. Presne rovnakú metódu používajú aj počítače pri spracovaní obrazu z kamier, ak chcú určiť hĺbku vnímanej scény.

Skúsim v krátkosti zhrnúť ako taký proces prebieha v počítači. Pri digitálnych obrazoch sa rozdiely v pozícii (disparita) merajú pre jednotlivé body. Ako príklad som uviedol obrázky z našej výskumnej databázy. Na oboch je tá istá budova, avšak nasnímaná z trochu rozdielnej pozície. Ak si zoberieme jeden bod z pravého obrázku (napr. ten označený bielou farbou) a nájdeme k nemu jeho obraz v druhom obrázku, nazývaný tiež korešpondenčný bod (označený zelenou farbou), vieme z porovnania ich pozícii určiť relatívnu vzdialenosť bodu od kamery. Ak to spravíme pre dostatočný počet bodov, budeme vedieť získať reliéf celej budovy.
Problém je samozrejme v tom, ako nájsť takéto korešpondenčné body. Najzákladnejší spôsob je vybrať si bod v prvom obrázku a prehľadať celý druhý obrázok kým nenájdeme bod s podobnými vlastnosťami. Toto je však nielen časovo veľmi náročné ale počas prehľadávania sa môže počítač aj ľahko pomýliť, pretože vyberá z veľkého množstva bodov. Našťastie existujú nejaké pomôcky. Jedna z nich je založená na fakte, že ak poznáme parametre kamier - tzv. kalibráciu, vieme lepšie určiť, kde hľadaný bod bude. Konkrétne vieme odvodiť jednoduchú maticu, ktorá nám urči priamku na obrázku, na ktorej sa daný bod určite nachádza (na obrázku je to bledomodrá priamka). Netreba už teda prehľadávať celý obrázok, ale len jednu priamku.
Počas nášho výskumu pred pár rokmi ešte na Fakulte Matematiky, Fyziky a Informatiky, UK sa nám dokonca podarilo vyvinúť nový metódu nazvanú "false epipolar constraint", ktorá dokáže určiť druhú priamku (na obrázku znázornenú ako fialovú), pričom korešpondenčný bod sa nachádza v blízkosti priesečníkov oboch priamok. Koncept tejto metódy bol podrobne odvodený, avšak pre nedostatok zdrojov nebola prakticky testovaná v reálnych aplikáciách. O metódu prejavili záujem aj iné výskumné týmy a napr. tým okolo prof. Jian Yang-a z Harbin Inštitútu implementoval metódu u testovacích robotov a zistil že urýchľuje ich videnie až päťdesiatnásobne. Ide však o tzv. pravdepodobnostnú metódu - dáva správne výsledky iba s určitou pravdepodobnosťou a môže sa niekedy pomýliť. Avšak zrýchlene je také signifikantné, že omyly sú oproti nemu nepodstatné. Takto podobne funguje aj náš zrak. Mozog je síce veľmi výkonný počítač, ale predsa len má svoje limity a aby dokázal spracovať obrovské množstvo informácii, ktoré vnímame, robí isté kompromisy. V niektorých prípadoch tiež jednoducho iba háda. Preto existujú rôzne zrakoklamy a optické ilúzie, ktoré toto hádanie mozgu „zneužívajú" na zaujímavé efekty.

Aký budúci výskum nás čaká v tejto oblasti? Na začiatku som spomínal, že minimálny počet senzorov (očí) pre vnímanie hĺbky je dve. Tento počet nám určila evolúcia, avšak pri počítačovom videní počtom nie sme nijak obmedzení. Terajšie systémy využívajú väčší počet senzorov. Na obrázku sú dva také systémy - prvá je letecká kamera UltraCam určená na snímanie a rekonštrukciu zemského povrchu. Táto kamera má 8 senzorov s vysokým rozsahom frekvencii - od viditeľného svetla až po infračervené. Na druhom obrázku je nová generácia R7 kamier od Google určená na snímanie miest z idúceho vozidla. Kamera má 15 senzorov a dokáže nasnímať celé svoje okolie na jedno spustenie. Pri spracovaní výstupov z týchto kamier používame rovnaký princíp - tiež hľadáme korešpondenčné body medzi obrázkami. Avšak geometria a vzájomné vzťahy sú už omnoho komplikovanejšie. Niektoré metódy idú ešte ďalej. Ak zdroj napr. používajú otvorené databázy fotografii umiestnených na internete. Takáto metóda dokáže zrekonštruovať vo forme trojrozmerného modelu celý mestský blok (napr. historické centrum nejakého mesta) z približne 150 000 fotografii od rôznych autorov. Spracovať také množstvo trvá asi deň na moderných grafických procesoroch. Ešte pred desiatimi rokmi by to trvalo asi rok a v podstate ani neexistovalo vhodné médium na ktoré by sa dalo také množstvo informácii uložiť. Je preto dosť ťažké predpovedať, čo nám ešte umožnia technológie budúcnosti.