Em formação

Coordenação olho-mão no espaço 3D


Um simples evento diário me surpreendeu e disparou essa pergunta. Eu li e ouvi sobre coordenação olho-mão. É bastante simples quando você, por exemplo, deseja abrir uma porta ou jogar o Xbox. Neste caso, ou sua mão está em sua visão ou sua mão sentirá os botões de seu Xbox.

Mas quando se trata de pegar uma bola ou tentar pegar um objeto em queda, nossa mão está totalmente fora de nosso campo de visão, pois estamos seguindo de perto a trajetória do objeto em movimento. Mas, enquanto isso, nossas mãos se movem em um espaço 3D e se alinham perfeitamente no caminho da trajetória corretamente. Isso é o que me surpreendeu.

Se você pode ver sua mão e o objeto / bola simultaneamente, é apenas uma questão de mover nossa mão no caminho dessa bola / objeto. Mas ter as mãos totalmente fora de vista, mas pegando a bola / objeto perfeitamente todas as vezes, é uma peça incrível da engenharia da natureza.

Como os humanos conseguiram uma coordenação tão incrível em um espaço 3D sem ver onde as mãos estão localizadas?


Resposta curta
Propriocéptico os receptores fornecem um mecanismo de feedback do corpo para o cérebro, dizendo ao cérebro o que nossos membros estão fazendo e onde estão em relação ao corpo, sem que seja necessário um feedback visual.

Fundo
Músculos, pele e articulações contêm receptores propriocépticos. Elas sentir a posição e o movimento de nossos membros e tronco, eles registram força e também peso. Exemplos de tais receptores são os órgãos tendinosos dos membros e, possivelmente, também os fusos musculares, que contribuem para as sensações de força e peso.

As sensações proprioceptivas são influenciadas pela entrada visual, mas operam sem ela. O sistema proprioceptivo é responsável pela habilidade de tocar seu nariz com os olhos fechados e pelos exemplos que você deu relacionados a pegar uma bola sem prestar atenção visual à posição de suas mãos.

Os sinais aferentes desses receptores são combinados e processados ​​no cérebro. Juntos, eles formam informações sobre a posição e o movimento dos membros. Essas informações são mapeadas em relação a um mapa central do corpo para determinar a localização dos membros no espaço. Os sentidos proprioceptivos, principalmente de posição e movimento dos membros, deterioram-se com a idade e estão associados a um risco aumentado de quedas em idosos.

Referência
Proske & Gandevia, Phys Rev 2012; 92:1651-97


Coordenação Olho-Mão

A coordenação olho-mão está no centro de nossas ações e interações diárias com objetos e pessoas ao nosso redor, e é fundamental para entender como o cérebro cria modelos internos do espaço de ação e gera movimento dentro dele. A coordenação olho-mão continua sendo um problema muito complexo e indescritível, que é ainda mais complicado por sua representação distribuída no cérebro. Na verdade, a evolução não confinou essa função crucial a uma única área, mas sim atribuiu-a a vários sistemas corticais e subcorticais distribuídos, onde os mecanismos de codificação podem satisfazer múltiplas demandas e as consequências das lesões são menos perturbadoras. Discutiremos evidências que sugerem que a coordenação olho-mão é, de fato, uma função emergente das operações parietais internas e de sua interação com o córtex frontal, onde residem os domínios de produção do olho e da mão corticais. Portanto, a coordenação dos movimentos dos olhos e das mãos requer uma ativação espaço-temporal adequada das estruturas subcorticais que controlam os olhos e a mão. Nessa rede distribuída, a transferência de informações entre diferentes áreas corticais e com estruturas subcorticais é baseada em padrões de comunicação dispersos temporalmente.


Resumo

A confiabilidade é de vital importância para a manutenção remota em um navio tokamak. A fim de estabelecer um sistema de manuseio remoto mais preciso e seguro, um método de coordenação olho-mão e um método de prevenção de colisão baseado em função de potencial artificial foram propostos neste artigo. No final deste artigo, esses métodos foram implementados em uma tarefa de manutenção de aperto de parafusos, que foi realizada em nosso modelo tokamak em escala 1/10. Os resultados da experiência verificaram o valor do método de coordenação olho-mão e o método de prevenção de colisão.


Coordenação binocular tridimensional olho-mão em visão normal e com deficiência visual simulada

O acoplamento sensório-motor em humanos saudáveis ​​é demonstrado pela maior precisão do rastreamento visual intrinsecamente - em vez de extrinsecamente - movimentos de mão gerados no plano fronto-paralelo. Não se sabe se este acoplamento também facilita os movimentos oculares de vergência para rastrear objetos em profundidade ou pode superar deficiências visuais binoculares simétricas ou assimétricas. Observadores humanos foram, portanto, solicitados a rastrear com o olhar um alvo se movendo horizontalmente ou em profundidade. O movimento do alvo era controlado diretamente pela mão do observador ou seguia os movimentos da mão executados pelo observador em uma tentativa anterior. As deficiências visuais foram simuladas por estímulos desfocados de forma independente em cada olho. A acurácia foi maior para os movimentos autogerados em todas as condições, demonstrando que os sinais motores são empregados pelo sistema oculomotor para melhorar a acurácia da vergência e dos movimentos oculares horizontais. O desfoque monocular assimétrico afetou o rastreamento horizontal menos do que o desfoque binocular simétrico, mas prejudicou o rastreamento em profundidade tanto quanto o desfoque binocular. Havia um nível de desfoque crítico até o qual os movimentos oculares de perseguição e vergência mantinham a precisão do rastreamento independente do nível de desfoque. A coordenação mão-olho pode, portanto, ajudar a compensar os déficits funcionais associados à doença ocular e pode ser empregada para aumentar a reabilitação da deficiência visual.

Esta é uma prévia do conteúdo da assinatura, acesso por meio de sua instituição.


Feedback versus feedforward

Em sistemas de controle de robô, a complexidade de controle é significativamente reduzida usando feedback visual para "servir visualmente" o efetor, essencialmente conduzindo-o ao ponto onde o erro visual é reduzido a zero (por exemplo, Kragic et al. 2002). Isso funciona na robótica porque o feedback sensorial é limitado apenas pela velocidade do fluxo elétrico e pelo tempo de processamento do computador. No cérebro de primata real, porém, a velocidade de condução neural e tempo de processamento é tal que um rápido movimento ocular sacádico seria concluído, ou um movimento rápido do braço estaria muito fora do caminho antes de ser atualizado com precisão por um novo sinal visual (por exemplo, Robinson 1981). Assim, o sistema de coordenação olho-mão deve confiar totalmente neste feedback sensorial lento e fazer movimentos muito lentos (talvez o cérebro da preguiça da América do Sul tenha optado por essa opção), ou deve seguir outro caminho: o uso de modelos do sistema físico e do mundo externo que, com base nas condições sensoriais iniciais, podem operar com alguma independência subsequente.

Isso não quer dizer que o feedback visual não seja usado para guiar os movimentos de alcance e preensão. O feedback visual altera o alcance da cinemática (Connoly e Goodale 1999), mesmo sem percepção consciente (Goodale et al. 1986 Prablanc e Martin 1992) e devemos confiar em tal feedback quando nos engajamos em novos comportamentos ou quando encontramos condições inesperadas (Baddeley et al. 2003 Flanagan et al. 2003 Johansson et al. 2001 Rossetti et al. 1993). Há evidências de que o córtex parietal posterior (PPC) também ajuda a incorporar feedback visual nos movimentos contínuos do braço (Desmurget et al. 1999 Pisella et al. 2000). Mesmo movimentos bem praticados requerem feedback visual para desempenho ideal (Proteau e Carnahan 2001). No entanto, as transformações feedforward são essenciais para os aspectos básicos de comportamentos comuns e superaprendidos (Ariff et al. 2002 Flanagan et al. 2001, 2003), permitindo fixações visuais intermitentes para guiar com precisão uma sequência rápida e contínua de movimentos coordenados de olhos e braços. As seções subsequentes desta revisão tratarão do nível de sofisticação que é alcançado nesses modelos internos de feedforward.

Mesmo com o uso de tais modelos internos de feedforward, a estrutura interna do cérebro é maciçamente recursiva. Foi corretamente afirmado que as estruturas corticais envolvidas nas transformações visuomotoras para o movimento do braço estão aninhadas em loops, tornando-as mais como um sistema interdependente do que um conjunto de transformações discretas (por exemplo, Caminiti et al. 1998). No entanto, se esperamos entender o que esse sistema faz, precisamos começar dividindo as transformações em etapas conceituais e, em seguida, tentar adivinhar como essas etapas podem ser implementadas. Para economizar tempo, o cérebro provavelmente implementa cálculos sequenciais usando os caminhos mais curtos possíveis. Juntamente com isso, o cérebro primata parece ser organizado em certas unidades computacionais modulares (por exemplo, Andersen e Buneo 2002 Wise et al. 1997). Assim, há esperança de que possamos identificar algumas das transformações feedforward para a coordenação olho-mão.

Como os aspectos "tardios" dessas transformações - certas transformações cinemáticas inversas, cálculos de dinâmica muscular, reflexos de feedback proprioceptivo de loop curto - estão ligados ao controle onipresente do movimento dos membros em vez da coordenação olho-mão em si, nosso foco aqui será principalmente seja nos “aspectos iniciais” (Flanders et al. 1992), na incorporação de informações visuais no plano motor, e como isso compensa os movimentos dos olhos e da cabeça.


Coordenação robusta mão-olho

Câmeras industriais são acopladas a sistemas robóticos para aumentar a flexibilidade dos robôs. Essa coordenação mão-olho geralmente requer calibração das câmeras para calcular as coordenadas tridimensionais (3D) de posições no espaço do robô. Este artigo descreve uma nova abordagem de coordenação olho-mão que não requer calibração da câmera. Em vez disso, propomos o uso de disparidade estéreo relativa para calcular a profundidade relativa entre os objetos percebidos. Incorporar a medida de profundidade relativa no espaço da imagem converte o problema de coordenação olho-mão em uma transformação linear entre o espaço da imagem pseudo-3D e o espaço do robô 3D. Além disso, a matriz de transformação envolvida é quadrada e pode ser facilmente estimada e atualizada usando feedback visual. O método proposto é rápido e simples, tornando viável a implementação de feedback visual em tempo real. Além disso, uma vez que nenhuma calibração é necessária, o método proposto é robusto para mudanças substanciais na configuração do sistema mão-olho. Experimentos são conduzidos para verificar a precisão e robustez do método proposto. As principais contribuições deste artigo são: (i) introduzir um atributo estéreo que mede a profundidade relativa, (ii) formular um espaço de imagem pseudo-3D, (iii) relacionar o espaço de imagem pseudo-3D com o espaço do robô para calcular a mão. transformação do olho e (iv) realização de um sistema robusto de coordenação olho-mão que incorpora controle de feedback visual.


Considerações

Dale Davidson / Demand Media

Se você está trabalhando com uma criança, uma das melhores maneiras de ajudá-la a desenvolver boas habilidades de coordenação olho-mão é fornecendo brinquedos ou objetos, como xícaras e tigelas, que combinem. A Enciclopédia de Saúde Infantil sugere bolas, quebra-cabeças e blocos de construção como outros bons brinquedos para desenvolver e melhorar a coordenação olho-mão.


Um sistema ativo para alcance visualmente guiado em 3D através de fixações binoculares

Com base na importância da disparidade relativa entre objetos para uma coordenação olho-mão precisa, este artigo apresenta uma abordagem biológica inspirada na arquitetura neural cortical. Assim, a informação motora é codificada em coordenadas egocêntricas obtidas a partir da representação alocêntrica do espaço (em termos de disparidade) gerada a partir da representação egocêntrica da informação visual (coordenadas da imagem). Dessa forma, os diferentes aspectos da coordenação visuomotora são integrados: um sistema de visão ativa, composto por duas câmeras vergentes um módulo para estimativa de disparidade binocular 2D com base em uma estimativa local de diferenças de fase realizada através de um banco de filtros Gabor e um robô atuador para realizar as tarefas correspondentes (alcance orientado visualmente). O desempenho da abordagem é avaliado por meio de experimentos em dados simulados e reais.

1. Introdução

Um objetivo de longo prazo da pesquisa em robótica é construir robôs que se comportem e até se pareçam com seres humanos. Portanto, visando trabalhar com e para as pessoas, as habilidades humanas devem ser modeladas e replicadas em um sistema robótico. Dessa forma, os robôs devem ser capazes de completar suas tarefas interagindo adequadamente com seu ambiente [1]. Como no caso dos seres humanos, essas interações no espaço devem ser explícito, (por exemplo, apontar, alcançar ou agarrar coisas), bem como implícito (no sentido de alcançar uma consciência de Onde e o que as coisas estão ao seu redor).

A este respeito, a informação visual tem sido amplamente utilizada para controlar um sistema de robô, aumentando sua flexibilidade e precisão (por exemplo, [2-10]). No entanto, esta abordagem, comumente conhecida como servo visual, mantém separados os processos de controle de visão e movimento, para que o processamento de imagem simplesmente fornece o erro sinais exigidos pelos esquemas de controle reais. Na verdade, todas essas técnicas são baseadas em módulos separados ou de interação moderada. Além disso, uma das principais restrições dessa abordagem é o processamento de imagens de vistas naturais, ou seja, a extração de recursos robustos para servo visual. Ao contrário, o conceito além deste artigo é investigar se o processamento visual e os movimentos oculares, bem como os movimentos mais gerais do robô, podem ser integrados em diferentes níveis para melhorar a capacidade de interação no robô. espaço peripessoal modelando adequadamente a cena observada.

Como solução, aproveitamos o conceito de visão ativa [11, 12] por ser exploratória e preditiva. Na verdade, dessa forma, um robô pode evoluir de um estado de observador passivo, intimidado pelas informações, a um agente mais seletivo, capaz de controlar e adaptar sua própria percepção de acordo com a tarefa a ser executada. Como exemplo, Coombs e Brown [13] demonstraram como o controle de vergência dinâmica pode interagir habilmente com o processamento de imagem para rastrear alvos móveis sobre fundos desordenados. Observe que os movimentos de vergência ajustam os olhos para a visualização de objetos em profundidades variadas. Portanto, embora a recuperação da profundidade absoluta não possa ser estritamente necessária, a disparidade relativa entre os objetos é crítica para tarefas como a coordenação olho-mão precisa, discriminação figura-fundo e / ou detecção de colisão. Além disso, a disparidade fornece algumas dicas para planejar e controlar comportamentos direcionados a metas.

Assim, nossa pesquisa visa explorar a interação existente entre visão e controle de movimento para obter um conhecimento do espaço circundante ao atingir um objeto visual é a tarefa. Para isso, é necessário projetar e implementar um esquema de representação espacial que suporte um comportamento natural flexível o suficiente para lidar com como as ações do robô influenciam o mundo. Em outras palavras, este artigo apresenta uma estratégia biológica dotando um sistema robótico com comportamentos visuomotores básicos, habilidades perceptivas e habilidades manipulativas (ou seja, alcançar um alvo visual). Portanto, o sistema robótico projetado pode executar de forma robusta tarefas visuo-motoras em ambientes naturais complexos, sem qualquer a priori conhecimento.

1.1. A Biologia da Codificação Espacial

Do ponto de vista biológico, a estratégia de interação aparentemente adotada por todos os vertebrados superiores consiste em separar o reconhecimento de um objeto (o o que problema) de encontrar sua posição (o Onde problema). Assim, as regiões temporais do córtex cerebral estão envolvidas na o que caminho, enquanto as regiões parietais tentam encontrar Onde os objetos de interesse são [14-16]. O sistema parietal pode então ser considerado como uma estratégia de atuação para focar a atenção do sistema em uma zona particular do campo perceptivo. Esta abordagem leva a um da ação à percepção esquema [17-19]. Ou seja, a ação e a percepção estão ligadas de tal forma que as ações podem modificar as percepções externamente e internamente. Em outras palavras, a realização de uma ação influencia externamente a percepção ao mudar a cena e / ou o ponto de vista (por exemplo, o movimento dos olhos serve para escolher uma cena para a percepção). Ao mesmo tempo, isso pode implicar em uma modificação interna da percepção, uma vez que informações diferentes podem ser necessárias para planejar e executar adequadamente a próxima ação. Como consequência, percepções e ações podem ser acopladas em diferentes níveis, de modo que a combinação adequada deles forneça uma cognição completa e operacional do espaço circundante [20, 21].

Neste contexto, a questão chave é como o cérebro consegue estabilidade perceptiva, apesar da natureza da entrada fornecida pelos olhos? Na verdade, essa pergunta tem sido feita por pesquisadores desde o sacar e fixar estratégia do sistema oculomotor foi observada pela primeira vez [23]. Relatos recentes sobre a maneira como os humanos codificam informações sobre objetos, lugares e rotas no mundo ao seu redor propõem que eles têm dois tipos de representação espacial: alocêntrico e egocêntrico [24–26] (ver Figura 1). Conforme definido em [22], o alocêntrico a representação é semelhante a um mapa. É indexado a um sistema de coordenadas mundial e, portanto, é independente da localização atual de uma pessoa e sobrevive por longos períodos de tempo. Essa representação deve ser construída a partir da visão ao longo do tempo, mas não depende de dados visuais imediatos. O outro tipo de representação espacial, ou seja, o egocêntrico representação, é temporária e é baseada nas direções do objeto em relação à posição do corpo atual em relação ao espaço circundante. Este segundo quadro representacional permite aos humanos agirem sobre seu ambiente com o propósito de localizar, alcançar e / ou manipular objetos.


Processamento espacial alocêntrico versus egocêntrico. As transformações espaciais alocêntricas envolvem um sistema de representação objeto a objeto e codificam informações sobre a localização de um objeto ou suas partes em relação a outros objetos, enquanto as transformações de perspectiva egocêntrica envolvem um sistema de representação auto-objeto.

Esta divisão egocêntrico-alocêntrica segue uma distinção neuropsicológica bem estabelecida entre as correntes de processamento visual dorsal e ventral [20, 27]. Na verdade, esses dois quadros de referência têm funções específicas no modelo de visão para ação e visão para percepção, de modo que representações egocêntricas seriam usadas pela corrente dorsal para programar e controlar os movimentos qualificados necessários para realizar a ação, enquanto a percepção consciente dependeria de representações alocêntricas apoiadas pelo fluxo ventral [28, 29]. No entanto, uma nova questão surge: como eles interagem e se combinam [30].

A pesquisa sobre este tópico [22, 24, 31-36] estabelece que os processos mentais formam uma hierarquia de representações mentais com representações maximamente egocêntricas na parte inferior e representações maximamente alocêntricas no topo, abstraindo progressivamente das particularidades das representações egocêntricas. Portanto, a informação visual deve ser inicialmente codificada no espaço retinotópico, enquanto os planos de movimento muscular devem ser codificados em representações centradas na cabeça e / ou no corpo. Na verdade, é claro que, no contexto do comportamento natural, uma série de diferentes esquemas de codificação espacial estão envolvidos e agem em paralelo (ver Figura 2). Este é o caso, por exemplo, de planos de alcance de braço, que são codificados em coordenadas centradas no olho [37, 38]. No entanto, parece provável que a coordenação eficiente da entrada sensorial e da saída motora envolva uma transformação entre os vários referenciais paralelos para a codificação espacial através do córtex parietal.


Quadros de referência para tarefas visomotoras. O movimento necessário para agarrar a caneca é o ângulo do braço até o alvo. Este é o ângulo do corpo ao braço menos a soma dos ângulos do alvo à fóvea, olho na cabeça e cabeça no corpo. Na prática, olho, cabeça e corpo estão frequentemente alinhados antes de tal movimento de preensão, mas tal alinhamento não é essencial (cortesia de Tatler e Land [22]).
1.2. Contribuições

Neste artigo, propomos uma abordagem biológica seguindo a arquitetura neural de forma que a informação motora para realizar a tarefa em mãos seja codificada em coordenadas egocêntricas (coordenadas motoras) obtidas a partir da representação alocêntrica do espaço (em termos de disparidade) gerada a partir do representação egocêntrica da informação visual (coordenadas da imagem). Com esse propósito, um paradigma de visão ativa é usado: o processamento de dados visuais dependente do comportamento para um escrutínio visual atento baseado na mudança do ponto de fixação de diferentes alvos (foveação ativa). Assim, os diferentes aspectos da coordenação viso-motora são integrados: um sistema de visão ativa, composto por duas câmeras vergentes, um módulo para estimativa da disparidade binocular 2D e um atuador robótico para realizar tarefas de alcance. Assim, a principal contribuição deste artigo pode ser resumida em dois pontos. (i) Projeto e implementação de um algoritmo (PBBDE) para estimativa de disparidade que não requer informações precisas de calibração (em termos da orientação relativa das câmeras). (ii) Projeto e implementação de uma ferramenta de realidade virtual para avaliar o desempenho deste método e estudar a adaptação do comportamento dos robôs ao alcançar tarefas desencadeadas pela percepção 3D em um ambiente não estruturado.

Esses objetivos foram alcançados realizando o seguinte. (a) Um projeto e implementação de uma arquitetura inspirada na arquitetura neural cortical destinada a um mais natural interação do robô com o meio ambiente. (b) Uma integração de diferentes aspectos da coordenação visuo-motora: um sistema de visão ativo, um módulo para disparidade binocular 2D e estimativa de profundidade e um atuador robótico para realizar tarefas de alcance. (c) Execução robusta de tarefas visuo-motoras em ambientes naturais complexos, sem qualquer a priori conhecimento. (d) Um projeto e implementação de habilidades de percepção e manipulação robóticas (ou seja, alcançar um alvo visual) integrando processamento visual, movimentos oculares e movimentos do robô em diferentes níveis, sem separar os processos de controle de visão e movimento como no servo visual. (e) Um projeto e implementação de profundidade de alvos visuais. (f) Um projeto e implementação de uma ferramenta de realidade virtual que nos permite estudar a adaptação do comportamento do robô ao alcançar a tarefa a partir da percepção 3D em um ambiente não estruturado. (g) Uma análise de parâmetros que tornam o mapa de disparidade condicional à precisão. (h) Um estudo do custo computacional da abordagem proposta com base no tamanho da imagem.

Com esse objetivo, este artigo está organizado da seguinte forma. Na Seção 2, apresentamos a abordagem baseada em fase usada para o processamento estéreo em sua forma generalizada para calcular a disparidade 2D para sistemas de visão convergentes. Uma ferramenta de realidade virtual implementando tarefas robóticas de alcance a partir de pistas visuais estereoscópicas é descrita na Seção 3, enquanto os resultados experimentais, sob diferentes condições, são apresentados na Seção 4 e discutidos na Seção 5.

2. Processamento estéreo

Como mencionado acima, a disparidade é uma pista importante para a estimativa de profundidade, uma vez que fornece uma representação espacial alocêntrica que nos permite determinar absoluto distâncias quando as orientações da câmera são conhecidas.

Focando na obtenção de um mapa de disparidade, o primeiro problema a ser resolvido é o problema da correspondência. Basicamente, refere-se ao problema de correspondência correspondente pontos de imagem em um par estéreo de imagens. Apesar do grande número de algoritmos propostos (ver [39-42] para uma visão geral), eles podem ser classificados em dois grupos principais, conforme apontado em [40]. (eu) Baseado em área algoritmos de correspondência. As métricas de similaridade de domínio de imagem são usadas para correspondência ponto a ponto densa. Portanto, o mapa de disparidade resultante pode ser muito denso, o que torna esse tipo de método uma maneira interessante de quantificar e resolver problemas de visão inicial. (ii) Baseado em recursos algoritmos de correspondência. Eles dizem respeito às duas etapas seguintes. (uma) Extração de recursos. Recursos como cor, bordas e assim por diante são extraídos das imagens. A localização dessas características é importante, uma vez que as disparidades serão determinadas de acordo com as diferenças de posição após a etapa seguinte (ou seja, o problema de correspondência) ter sido resolvida. (b) Resolvendo o problema de correspondência. Uma correspondência entre os elementos da imagem é escolhida entre muitos outros concebíveis. Vários tipos de conhecimento, restrições e considerações de plausibilidade são usados ​​nesta fase, como (1) espaço de busca: para um elemento na imagem esquerda, um elemento correspondente é procurado apenas dentro de uma determinada região da imagem direita, (2) característica atributos: no caso dos elementos da imagem podem ser distinguidos uns dos outros, então apenas aqueles do mesmo tipo (por exemplo, bordas, terminações de linha) e com as mesmas características (por exemplo, cor, polaridade de contraste) são combinados, (3 ) restrições de ordenação: a plausibilidade de outras correspondências muda assim que uma correspondência entre duas características é estabelecida. Consequentemente, as restrições devem ser reorganizadas para extrair informações de profundidade.

Observe que este método resulta em mapas de disparidade esparsos, uma vez que só obtém disparidades para os recursos extraídos

No entanto, os métodos de correspondência de correspondência geralmente não podem ser adaptados de forma eficiente para alterar as informações de geometria da câmera. Por esse motivo, quase todos os algoritmos de visão estéreo propostos separam os estágios de calibração e estimativa de disparidade densa. Por outro lado, em relação à etapa de calibração, ela é normalmente realizada offline por meio de técnicas baseadas em recursos. Observe que as informações de calibração são usadas para retificação estéreo, resultando em um processo de correspondência simplificado e mais rápido (de duas dimensões para uma). Por outro lado, estimar a geometria epipolar a partir de correspondências ruidosas, possivelmente incluindo muitos outliers, é problemático. Como uma melhoria da precisão da calibração, ou um objeto de calibração especial é usado ou as informações de vários pares de imagens são combinadas como em [43, 44]. Além disso, a estimativa da geometria epipolar é geralmente estabilizada explorando as restrições físicas na configuração da câmera. Assim, por exemplo, Björkman e Eklundh [45] apresentaram um sistema para calibrar externamente um par estéreo assumindo fixação e nenhuma rotação ao redor da linha de visão. Ao contrário, Papadimitriou e Dennis [46] propuseram um método de auto-retificação que foca apenas na remoção dos deslocamentos verticais. Eles assumem um sistema de câmera convergente onde apenas as rotações em torno de um eixo paralelo ao eixo vertical (panorâmica) precisam ser compensadas. Isso reduz o problema e estabiliza a estimativa da geometria da câmera. No entanto, como Papadimitriou e Dennis afirmaram [46], a disparidade vertical pode causar erros graves no processo de correspondência se as imagens estéreo não forem retificadas muito bem. Portanto, uma retificação robusta deve ser usada para obter uma correspondência de correspondência de imagem precisa, que é realizada após a etapa de calibração. Como exemplo, Gao et al. [47] propôs um sistema embarcado em tempo real combinando estimativa de disparidade e auto-retificação. Como em [46], o sistema corrige apenas deslocamentos verticais.

Por outro lado, estudos biológicos revelaram que a resposta do córtex visual é voltada para a porção limitada por banda do domínio da frequência. Este fato fornece evidências de que o cérebro decompõe os espectros em canais perceptuais que são bandas em frequência espacial [48]. Assim, as imagens podem ser vistas como funções senoidais movidas em profundidade e a disparidade pode ser extraída por meio de filtros de frequência. Nesse contexto, as funções de Gabor têm sido amplamente utilizadas devido à sua semelhança com o campo receptivo das células no córtex virtual [49, 50]. Na verdade, eles têm sido particularmente bem-sucedidos em muitas aplicações de visão computacional e processamento de imagens [51–55]. No entanto, um problema fundamental com esses métodos é a memória inerentemente grande e os overheads computacionais necessários para o treinamento e teste no domínio Gabor supercompleto.

Como alternativa, diferentes filtros passa-banda com base em propriedades específicas das funções de base [56-62], ou de acordo com considerações teóricas e práticas de toda a transformação do espaço-frequência [63-72], foram propostos. No entanto, essas técnicas consomem muito tempo e dificilmente são adequadas para aplicações em tempo real. Além disso, com imagens cartesianas, se o objeto de interesse for pequeno, a disparidade de fundo pode levar a estimativas errôneas. Alternativamente, com imagens de variantes espaciais, a região alvo torna-se dominante [73].

Consequentemente, neste artigo, apresentamos um algoritmo para disparidade estimativa que não requer informações precisas de calibração (em termos da transformação relativa (posição e orientação) entre as duas câmeras). Ou seja, a abordagem proposta não utiliza os parâmetros da câmera externa. Consequentemente, as câmeras são calibradas apenas no início do experimento para obter os parâmetros internos da câmera, e nenhum procedimento de calibração é realizado, embora as câmeras mudem seu ponto de fixação. Para isso, um paradigma de visão ativa é usado: o processamento de dados visuais dependente do comportamento baseado na mudança do ponto de fixação de diferentes alvos (foveação ativa) para um escrutínio visual atento. Atenção seletiva e foveação implicam na habilidade de controlar os graus de liberdade mecânicos e ópticos durante o processo de aquisição de imagens [74]. Em tais sistemas, os movimentos da câmera trazem o objeto de interesse para o centro do par de imagens (realizando rotações da câmera), e esses movimentos de vergência geram disparidade horizontal e vertical [75-77].

2.1. Abordagem de estimativa de disparidade binocular baseada em fase (PBBDE)

A diferença na posição do alvo nas duas imagens estéreo define um disparidade mudança. Essa diferença pode ser usada para deslocar a imagem para a esquerda (ou direita) para alinhar as duas na mesma localização coordenada.

Assumindo que uma imagem é uma função de valor de cinza senoidal movida em profundidade, a mesma função de valor de cinza aparece em ambas as imagens de um par estéreo em diferentes ângulos de fase. Então, se o comprimento de onda do padrão senoidal é conhecido, a diferença de fase corresponde ao disparidade. Na verdade, esse tipo de abordagem pode ser usado com quaisquer funções de valor de cinza, filtrando todas as bandas de frequência da imagem, exceto uma [65, 78-85]. Foi demonstrado que os métodos baseados em fase são robustos a mudanças de contraste, escala e orientação [78]. A robustez da orientação é muito importante no contexto da estimativa de disparidade, pois as texturas ou recursos em superfícies inclinadas têm uma orientação diferente nas imagens esquerda e direita.

Para obter a diferença de fase correspondente em um ponto

, um kernel de filtro simétrico e um anti-simétrico são usados, realizando estimativas locais da diferença de fase. Assim, por exemplo, as duas saídas de filtro para a imagem esquerda


Efeitos técnicos: como os videogames afetam você

Os videogames podem ajudar a melhorar a coordenação olho-mão? Eles podem ajudar a treinar seu cérebro e melhorar suas habilidades cognitivas? WIRED Senior Editor Peter Rubin tests his skills against a pro sports gamer to find out if gaming can improve your brain and body.

If you grew up playing video games like I did,

you've probably heard lots of conflicting information.

Some say too much gaming will ruin your vision

and rot your brain, while others claim that it

improves your hand eye coordination,

it can even make you smarter.

So, what exactly does gaming do

to our brain and our body?

To find out, I visited doctors and researchers.

We're seeing brain activity in different frequencies.

Tested my hand eye coordination against a pro gamer.

And somehow ended up in a sub-200 degree cryo chamber,

all to answer the question: how do video games affect us?

The stakes are higher than ever.

The industry is booming, Esports have gone mainstream,

there are college leagues, parents are even getting

video game tutors for their kids.

And thanks in part to smart phones,

and free games like Fortnite,

gamers are playing more than ever before.

So given that we can play virtually anywhere

at any time, how is all this gaming changing us physically?

Let's start with the excuse I used

to give my mom when I was trying to get a

little bit more time on the Atari.

It's making me a better athlete.

To find out if that's actually true,

I headed to the sports academy in Thousand Oaks, California,

where amateur gamers and Esports pros

train under the same roof as traditional athletes.

This is pro gamer Matt Higgenbotham.

I'm known online as Acadian.

[Peter Rubin] Between training and casual gaming,

Matt plays eight to ten hours a day.

People say, you know, it improves hand-eye coordination,

it improves response time,

what have you seen in your own life?

If you only play League of Legends as like

your only activity with no physical exercise,

in my opinion, you're just going to get out of shape.

Yeah, maybe cognitive it would increase

the things you're going to use in the game:

reacting to things quickly, making decisions quickly.

[Peter] So is he right?. Let's find out

if being an avid gamer actually makes you sharper.

We're gonna be taking a bunch of cognitive tests,

one after the other. Now, Matt is a pro gamer,

I am very much not, so we're gonna see

exactly how our results break down.

The first test is my new arch nemesis, the Dynavision board,

which tests pure reaction time.

Your job is to hit the button when it lights up red, okay?

It's gonna move pretty quickly.

So you're gonna wanna rely on your periphery.

Okay, I can use either hand, right?

You can use either hand, that's right.

This is gonna a mess I can already tell.

Now, Matt's calm. He's making it look easy,

but this is way, way harder than it looks.

Yep, down below, yeah there you go.

I just threw the whole test.

I'm gonna walk you over to the next test.

Okay, yeah, so lets leave this far behind.

I'll see you in hell, Dynaboard.

The next one tests what's called Cognitive Processing.

It's also a reaction test, but, unlike the Dynavision Board,

there's a voice telling you to do the opposite

of what you're actually supposed to do.

Okay, there's going to be a voice

in your head that says stop or go,

don't listen to that voice. Keep hitting green.

Your body gets fatigued, and so does the brain.

The last test measures your ability

to track multiple objects at the same time.

We had to keep tabs on certain spheres as they

floated around in a 3D space. Kinda like trying

to win two games of three card monte at the same time.

Three and five. Six and eight.

I got better at it after like eight of them.

No, they bounced off each other, no!

[laughs] I don't know who lost them.

My confidence is shaken at this point.

Moment of truth [how are you], lets see how I did.

I hope you got some good news for me.

Of course, always. These tests are built

to really push your cognitive processing

but at the same time give you measurable results

and immediate feedback. Matt out-preformed you

in the more complex tests, so as tests

got more complicated, and had a significant

amount of distractions and opportunity for the brain

to start thinking about something that wasn't

primary to the task, he out-preformed you

pretty significantly in those tests.

If we were to compare both your scores to

a normal population, of which we have data,

he's in the ninety-eighth percentile,

and you're probably in the sixty or seventieth percentile.

So, are we talking about self selection here?

Is it that people who are good at this stuff

are playing games, or is there proof that

games can actually improve your cognition in that way?

No I think for sure games can help improve your cognition.

Playing video games can be very high speed,

can create a lot of chaos, create a lot

of multiple environments where you have to make decisions,

and all of these are forming skills in the brain.

So no, I think in general, just like in every capacity

of human performance, we all start with some baseline

based on genetics, but the opportunity to

train cognition I think it really powerful.

Okay, so a pro gamer who's twenty years

younger than me beat me at a few cognitive tests.

I mean, of course he did. O que

science have to say about all this?

Video games is a hugely broad category,

and we know for sure that the impact of a game

has to do with what you're asked to do.

So because of that, different games will

have different impacts on the brain.

You wouldn't ask, What's the impact of food on your body?.

Youɽ wanna know the composition of the food, right?

And so the same is true of video games,

so depending on what we would call the mechanics,

the dynamics, the content of individual games,

that is what would predict how

the games will affect your brain.

[Peter] Action games like Counterstrike,

Overwatch, and Fortnite are some of

the most popular with consumers these days.

And Green and his colleagues look to games like those

to find out what their impact is.

[Shawn] There are a sub-type of games, action games,

that have been linked with positive effects

in perceptual and cognitive skills.

These are games that have lots of fast motion in them,

lots of objects to track simultaneously,

and emphasis on peripheral processing,

so items first come at the edges of the screen.

The need to make quick and accurate

decisions under time pressure.

[Peter] Based on fifteen years worth of studies,

researchers found that action games biggest positive effects

were on perception, how our senses interpret

external stimuli like sights and sounds,

spatial cognition, which helps you coordinate yourself in

and navigate 3D environments,

and top down attention, the ability to focus on one object

While ignoring distractions

How far that generalizes, I think is

a pretty open question, so my expectation

is that there are plenty of people who show

pretty exceptional hand-eye coordination with a joystick

might not be able to catch a baseball very well.

So it's certainly the case that a perceptual

motor skill development in one area

won't necessarily generalize to all areas.

I'm curious about thoughts that you have about

the thresh holds between benefits gained from action games

and where those diminishing returns might kick in.

You will get more learning gain from

smaller sessions spread out over time than one big block.

With respect to perceptual and cognitive skills,

we've either seen a positive impact or a null impact.

We haven't seen any area that has

been damaged, where there is worse performance.

[Peter] So those are the positive effects

of playing action games. But what if you develop games

that specifically harness those cognitive effects?

That's exactly what researchers are attempting

Our goal is to bridge technology and neuroscience

to improve the function of your brain.

The reason we focus on cognitive control is because

we can look at it as the very, sort of, base of the pyramid

that all other aspects of cognition like

memory, reasoning, decision making,

all the way up to things like wisdom

are dependent upon it. If you can't pay attention,

everything crumbles. You can't build any of

the higher order cognitive abilities.

[Peter] Their custom designing games could one day

be prescribed as a kind of digital medicine

for patients with conditions like ADHD.

So, where pharmaceutical medicines

deliver molecular treatment, we think of this medicine

as a digital medicine that delivers experiential treatment.

The video game's essentially like our pill.

They hook me up with an EEG cap, so that

I can see my brain activity in real time,

while playing a steering game called Project Evo.

[inaudible] . and we'll see your brain responding to it.

[Peter] And there are signs it's working.

[Adam] So there you go, you got it now.

That game is now in the SCA approval process

to become the first ever prescribe able video game.

What we have frequently found is that we're able

to get transferred benefits from game play

to other aspects of attention

that are very different than the game.

[Peter] Neuroscape is also experimenting

with Virtual Reality. Because VR can utilize

your whole body as a controller,

it may well be able to compound the benefits

for things like attention and memory.

A lot of data has shown that physical activity,

even devoid of cognitive challenges,

has positive benefits on your brain,

especially the aging brain. So we ask the question,

what happens if you give physical challenges

that are integrated with cognitive challenge

and create a sort of integrated approach?

Will you have even more cognitive benefits

if you're moving your entire body [inaudible] challenges

as opposed to playing that same game just sitting there just

moving your fingers, and we're testing that right now.

Now, despite your findings and despite the fact

that you've been able to replicate this and you're

in phase three trials, there doesn't seem to be

consensus in the medical community. There are a lot

of other scientists who say, Well no, I mean,

any positives that you can derive from games

are kind of mild and transitory at best,

how do you respond to that?

It's a complicated field and it's still early days.

I'm at least cautiously optimistic based on

what we've seen over the last ten years

that we're really onto something that's gonna

be very positive of people using video games as therapeutic.

And if these games are prescribed one day

to improve brain function, there are still questions

about what the dosage should be.

It is important to make it fun, but it is also critical

to think of it as something that's dosed

and played for a limited time,

and not interfering with the other

important activities in your life.

Okay, now for the bad news.

Avid gaming can lead to injuries.

I see many people have repetitive motion injuries

from gaming extensively. Many gamers will game

from eight to sixteen hours a day six or seven days a week.

So my goal when I'm talking to them:

find out how much they game,

which games that they're playing,

with their injuries. So injuries are the following

often, finger injuries, wrist injuries, elbow injuries,

shoulder injuries, neck injuries.

It's the wide gamut of the human body, really.

[Peter] Doctor Harrison also sees something

This is an issue whereby someone will have

tendonitis, the back of their thumb, as well as

on the volar aspect or palmar aspect of the thumb.

So they'll have pain on the back of the thumb and the front.

Now, that I've only seen in gamers.

When they present with that,

they have really abused their bodies.

Their thumbs are really on fire.

When this bad boy is down, then you've got a problem.

So, I'm here, I'm your patient,

I don't have big problems yet,

but I want to prevent problems.

Let me show you, there's like five basic tricks, so

you're gonna go down, and then bring your fingers up.

Feel that? Loosen up your joints as well as for your wrists.

Just start opening up everything

and get everything moving really nice.

In and out with the thumb, and down.

This is one of the fundamental stretches

that every gamer should do.

Console base, keyboard base, mouse, whatever,

that is a thumb, you wanna have a healthy thumb.

You do them for five to ten minutes

twice a day, not difficult.

I think video games are great, moderation is the key.

If you overdo it, then there are always issues

that will be attached to that.

[Peter] Look, there's no question gaming can wear you out.

Some gamers at the Sports Academy even subject themselves

to Cryo therapy after long sessions.

The jury's still out on their effectiveness,

but some players swear by it.

So, I decided to give it a try.

Alright, so there's freezing cold gas, its dry.

You go through this fro two, two and a half, three minutes,

when you come out, which I can only hope

is gonna be sometime soon, when you come out

and your body starts to warm up again,

your blood then starts to recirculate

and goes back out to your extremities,

and the idea being that circulation feels amazing,

and you go to the [inaudible].

That was two and a half minutes, I made it!

So what have we learned here, other than

the fact that I'm a masochist?

Gaming can be good for your hand eye coordination

and perception. It can help with focus,

tension, maybe even memory.

Just how all that translates into

the real world, though, it still up for debate.

We also know the repetitive gaming

can take a tole on your body,

so a little bit of moderation goes a long way.

When it comes to my own experience,

I've played games more than thirty years,

never suffered any gaming related injuries.

While I may never know if gaming helped my brain,

I do know it didn't destroy it. So take that, Mom!

WIRED is where tomorrow is realized. It is the essential source of information and ideas that make sense of a world in constant transformation. The WIRED conversation illuminates how technology is changing every aspect of our lives—from culture to business, science to design. The breakthroughs and innovations that we uncover lead to new ways of thinking, new connections, and new industries.

© 2021 Condé Nast. Todos os direitos reservados. Use of this site constitutes acceptance of our User Agreement and Privacy Policy and Cookie Statement and Your California Privacy Rights. Com fio may earn a portion of sales from products that are purchased through our site as part of our Affiliate Partnerships with retailers. The material on this site may not be reproduced, distributed, transmitted, cached or otherwise used, except with the prior written permission of Condé Nast. Ad Choices


Heads-Up Virtual Reality device lets users see and ‘touch’ 3D images

It’s not uncommon to see children attempt to reach out and touch objects the first time they don 3D glasses and sit down in front of a 3D TV. Researchers at the University of California, San Diego, have created a new virtual reality device that enables users to do just that. The relatively low-cost device called the Heads-Up Virtual Reality device (HUVR) combines a consumer 3D HDTV panel and a touch-feedback (haptic) device to enable users not only to see a 3D image, but “feel” it too.

The system consists of a 3D HDTV panel placed above a half-silvered mirror that reflects the image from the panel back to the user. The user’s head position is tracked to generate the correct perspective view while they maneuver a touch-feedback device underneath the mirror, through which the user’s hand is still visible. This provides the illusion that the user is literally ‘touching’ the object being displayed.

The touch-feedback device located underneath the half-silvered mirror

Its creators say HUVR is ideal for tasks that require hand-eye coordination and is well-suited to training and education in structural and mechanical engineering, archaeology and medicine. The device could be used to visualize and manipulate a 3D image of a person’s brain taken from an MRI, or an artifact too fragile or precious to be physically handled, for example.

“By using HUVR’s touch-feedback device – which is similar to a commercial game control – a physician could actually feel a defect in the brain, rather than merely see it,” explained Research Scientist Tom DeFanti, who is affiliated with the UC San Diego division of the California Institute for Telecommunications and Information Technology (Calit2), and created the device with Calit2’s Virtual Reality Design Engineer Greg Dawe. “And this can be done over the networks, sharing the look and feel of the object with other researchers and students,” Defanti added.

Evolution of HUVR

In an illustration of how fast technology is moving, HUVR evolved from a system called PARIS created 12 years ago by DeFanti and Dawe and their colleagues and students at the Electronic Visualization Laboratory, University of Illinois, Chicago. PARIS, or Personal Augmented Reality Interactive System, used a projection technology similar to HUVR, but was low-resolution, too big to move, and expensive. It required the Silicon Graphics, Inc. computers of the time to render the images and cost upwards of US$100,000 (PARIS is still in operation today, but is now driven by a game PC).

Although passive stereo 3D HDTVs have been available for about a year, active stereo is needed for HUVR. Active stereo generates separate left- and right-eye images that can bounce off mirrors and are separated into left- and right-eye views by the user’s active eyewear, which blink in synchrony with the 3D HDTV’s 120Hz images. The polarization used in passive stereo will not stay polarized when reflected off a mirror, hence the need for active stereo in HUVR and its precedents.

The recent availability of 55” active stereo panel TVs was the key to making HUVR, which is essentially a more lightweight, portable, and – at about $7,000 (without head tracking) – a much cheaper version of the PARIS-based technology. Constructed from a $2,300 Samsung 3DTV panel available at most retail electronics stores, HUVR also offers better brightness, contrast, and visual acuity than PARIS.

The next step in HUVR’s evolution is to create a less expensive, reasonable quality head tracker suited to a desktop device (commercially available trackers currently range from $5,000 to $20,000).


Assista o vídeo: Coordenação olho mão (Dezembro 2021).